AI時(shí)代的數(shù)據(jù)要素開(kāi)發(fā)與治理
人工智能概念的提出已有60多年時(shí)間,但直到1997年IBM的深藍(lán)計(jì)算機(jī)戰(zhàn)勝國(guó)際象棋大師才為大眾所知,不過(guò)基于專家系統(tǒng)經(jīng)驗(yàn)的智能有限。2016年,AlphaGo戰(zhàn)勝世界圍棋高手初顯大數(shù)據(jù)實(shí)力,但也只是在規(guī)則下的算法熟能生巧,類似的方法推動(dòng)了自然語(yǔ)言識(shí)別與人臉識(shí)別技術(shù)的發(fā)展。2022年底,ChatGPT的問(wèn)世標(biāo)志著人工智能從判別式發(fā)展到生成式的跨越,雖然目前的大模型只是針對(duì)特定任務(wù)和指定模態(tài),離通用人工智能還有不少距離,但語(yǔ)言大模型讓機(jī)器初步具有常識(shí),懂得推理,學(xué)會(huì)創(chuàng)作,讓人和機(jī)器能以較自然的方式互動(dòng),通過(guò)與周邊工具的結(jié)合,表現(xiàn)出擬人的智能。與AlphaGo將數(shù)據(jù)作為查詢和判別的依據(jù)不同,ChatGPT可以說(shuō)讀透與消化了數(shù)據(jù),融會(huì)貫通計(jì)上心來(lái),得出源于數(shù)據(jù)高于數(shù)據(jù)的結(jié)論。生成式大模型賦予數(shù)據(jù)以新的生命力,AI時(shí)代大數(shù)據(jù)蘊(yùn)含的價(jià)值將進(jìn)一步涌現(xiàn)。數(shù)據(jù)因AI而變得越來(lái)越重要,數(shù)據(jù)要素是新型生產(chǎn)力的代表,數(shù)據(jù)挖掘能力成為新時(shí)代的國(guó)家重要競(jìng)爭(zhēng)力。
一、 培育數(shù)據(jù)資源,促進(jìn)開(kāi)放共享
數(shù)據(jù)是生產(chǎn)和生活過(guò)程的記錄及對(duì)自然觀察的結(jié)果。2022年中國(guó)人口占全球18%,網(wǎng)民占全球21.5%,GDP占全球18.06%。據(jù)國(guó)家網(wǎng)信辦《數(shù)字中國(guó)發(fā)展報(bào)告(2022年)》數(shù)據(jù)顯示,2022年我國(guó)數(shù)據(jù)產(chǎn)量達(dá)8.1ZB,同比增長(zhǎng)22.7%,全球占比為10.5%,位居全球第二;我國(guó)數(shù)據(jù)存儲(chǔ)量達(dá)724.5EB,同比增長(zhǎng)21.1%,全球占比為14.4%。中國(guó)產(chǎn)生和存儲(chǔ)的數(shù)據(jù)在全球的占比均低于中國(guó)的人口、網(wǎng)民和經(jīng)濟(jì)規(guī)模在全球的比例。據(jù)Synergy Research Group截至2021年Q3季度統(tǒng)計(jì),美國(guó)大規(guī)模數(shù)據(jù)中心在全球占比高達(dá)49%,其次是中國(guó)占比為15%?梢(jiàn)我國(guó)數(shù)據(jù)存儲(chǔ)量與美國(guó)相比差距還比較大,這反映了我國(guó)在社會(huì)信息化和產(chǎn)業(yè)數(shù)字化程度上仍落后于美國(guó),加快數(shù)字中國(guó)的建設(shè)將有望盡快改變這一狀況。
政府與研究機(jī)構(gòu)及企業(yè)都會(huì)存儲(chǔ)大量數(shù)據(jù),其中政府掌握全社會(huì)數(shù)據(jù)約80%,而且是高質(zhì)量數(shù)據(jù),但主要卻僅供內(nèi)部使用甚至是本部門內(nèi)小單位各自存儲(chǔ)和使用而非共享,數(shù)據(jù)利用率不高。需要從制度上明確共享內(nèi)容、權(quán)限和責(zé)任,促進(jìn)政府部門間數(shù)據(jù)共享,更精準(zhǔn)地把握社會(huì)和經(jīng)濟(jì)運(yùn)行全局,提升政府部門間工作的協(xié)同性。與共享相比,數(shù)據(jù)開(kāi)放更是社會(huì)數(shù)字化的標(biāo)志之一,政府及企事業(yè)單位掌握的公共數(shù)據(jù)具有很強(qiáng)的社會(huì)性,政府開(kāi)放數(shù)據(jù)對(duì)提升政府公信力、降低社會(huì)成本,帶動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展有重要作用。國(guó)際上將政府?dāng)?shù)據(jù)開(kāi)放作為數(shù)字政府的重要衡量指標(biāo),據(jù)《聯(lián)合國(guó)電子政務(wù)調(diào)查報(bào)告2022》數(shù)據(jù)顯示,從2012年到2022年的十年間,中國(guó)在線服務(wù)指數(shù)從0.5294上升到0.8876,在193個(gè)國(guó)家中排名從第62位上升到第15位,愛(ài)沙尼亞、芬蘭、韓國(guó)位居前三,美國(guó)第8,日本第9。我國(guó)還存在政務(wù)數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系待健全、政務(wù)數(shù)據(jù)統(tǒng)籌管理機(jī)制待完善,政務(wù)數(shù)據(jù)安全保障能力待加強(qiáng)的問(wèn)題,需要從建設(shè)數(shù)據(jù)流通基礎(chǔ)制度體系入手,加快數(shù)據(jù)立法,完善制度規(guī)范,統(tǒng)籌協(xié)調(diào)推進(jìn),編制數(shù)據(jù)目錄,分類分級(jí)管理,夯實(shí)共享開(kāi)放機(jī)制,提升安全保障。
除了政府開(kāi)放數(shù)據(jù)以外,社會(huì)公共數(shù)據(jù)的開(kāi)源開(kāi)放也表征數(shù)據(jù)流通的水平。人工智能生成內(nèi)容(AIGC)大模型都是利用語(yǔ)料庫(kù)訓(xùn)練的,一些互聯(lián)網(wǎng)大廠利用電商、社交、搜索等業(yè)務(wù)收集和標(biāo)注了海量的語(yǔ)料供自身訓(xùn)練大模型使用,沒(méi)有語(yǔ)料積累的企業(yè)和研究機(jī)構(gòu)雖然可以從網(wǎng)絡(luò)獲得語(yǔ)料,但自媒體內(nèi)容質(zhì)量良莠不分,未經(jīng)清洗與標(biāo)注就用作大模型的訓(xùn)練語(yǔ)料其效果堪憂。ChatGPT大模型訓(xùn)練時(shí)使用了開(kāi)源語(yǔ)料庫(kù),但中文詞元(Token)占比不到0.1%,還不及一些小語(yǔ)種的比例,其中的原因與中文開(kāi)源語(yǔ)料庫(kù)數(shù)量少和規(guī)模小有關(guān)。國(guó)內(nèi)高校也有數(shù)億到數(shù)十億字的語(yǔ)料庫(kù)但尚未開(kāi)源。國(guó)內(nèi)一些語(yǔ)言大模型直接采用國(guó)外開(kāi)源語(yǔ)料庫(kù)訓(xùn)練,在價(jià)值觀的把控上存在潛在風(fēng)險(xiǎn),建議對(duì)面向公眾開(kāi)放應(yīng)用的對(duì)話類大模型需要做語(yǔ)料來(lái)源的評(píng)估。面向重要應(yīng)用場(chǎng)景的大模型不宜強(qiáng)調(diào)訓(xùn)練用數(shù)據(jù)免標(biāo)注和無(wú)監(jiān)督學(xué)習(xí),還是要采用經(jīng)過(guò)清洗標(biāo)注的數(shù)據(jù)集和保留人工微調(diào),即有監(jiān)督學(xué)習(xí)環(huán)節(jié)。
行業(yè)大模型的訓(xùn)練也面臨挑戰(zhàn),專業(yè)數(shù)據(jù)沒(méi)有通用數(shù)據(jù)容易獲得,行業(yè)內(nèi)的企業(yè)間往往不愿共享專業(yè)數(shù)據(jù)。為此有必要建立高質(zhì)量國(guó)家級(jí)重要行業(yè)領(lǐng)域基礎(chǔ)知識(shí)庫(kù)、數(shù)據(jù)庫(kù)、資源庫(kù)等。此外要鼓勵(lì)社會(huì)數(shù)據(jù)要素的合理流動(dòng)和利用。中共中央、國(guó)務(wù)院《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見(jiàn)》提出,依法規(guī)范、共同參與、各取所需、共享紅利的發(fā)展模式,將合理降低市場(chǎng)主體獲取數(shù)據(jù)的門檻,增強(qiáng)數(shù)據(jù)要素共享性、普惠性,激勵(lì)創(chuàng)新創(chuàng)業(yè)創(chuàng)造。
二、 大模型驅(qū)動(dòng)數(shù)據(jù)范式創(chuàng)新
基礎(chǔ)大模型通常從通用語(yǔ)料訓(xùn)練生成,通識(shí)能力強(qiáng),從聊天對(duì)話入手容易反饋迭代優(yōu)化,但聊天難成剛需,落地行業(yè)應(yīng)用將更顯大模型的價(jià)值,但基礎(chǔ)大模型缺乏行業(yè)專業(yè)知識(shí),需要大模型提供方與垂直行業(yè)合作開(kāi)發(fā)行業(yè)大模型。一種模式是企業(yè)將數(shù)據(jù)交基礎(chǔ)大模型進(jìn)行再訓(xùn)練,待調(diào)優(yōu)至理想后再進(jìn)行知識(shí)蒸餾、量化及針對(duì)特定場(chǎng)景遷移等縮小模型規(guī)模的工作,但后續(xù)模型微調(diào)和云邊端部署等仍需算法工程師支撐,企業(yè)技術(shù)力量不足還得依賴模型提供方,企業(yè)數(shù)據(jù)交到模型提供方有數(shù)據(jù)泄漏風(fēng)險(xiǎn),但數(shù)據(jù)不全面則會(huì)導(dǎo)致訓(xùn)練效果差。另一種模式是企業(yè)具有算法工程師,按照特定業(yè)務(wù)場(chǎng)景以專有數(shù)據(jù)對(duì)基礎(chǔ)大模型進(jìn)行微調(diào),形成行業(yè)大模型或多個(gè)基于實(shí)際業(yè)務(wù)的小模型,最好是在預(yù)訓(xùn)練階段就加入垂直行業(yè)企業(yè)的數(shù)據(jù),預(yù)訓(xùn)練和指令微調(diào)交錯(cuò)進(jìn)行,提高模型對(duì)行業(yè)知識(shí)的表達(dá)、理解、遷移和泛化能力。
一些強(qiáng)監(jiān)管、重?cái)?shù)據(jù)安全的行業(yè)核心企業(yè),例如頭部金融機(jī)構(gòu)等,通常不會(huì)在第三方基礎(chǔ)大模型上構(gòu)建專業(yè)大模型,而是采用數(shù)據(jù)私有化、模型私有化、本地私有云方式構(gòu)建大模型,即在加密環(huán)境中使用私有數(shù)據(jù)訓(xùn)練專業(yè)大模型,但需要面對(duì)成本與技術(shù)門檻高的挑戰(zhàn)?偟膩(lái)說(shuō),無(wú)論自建或合作開(kāi)發(fā)行業(yè)大模型,數(shù)據(jù)安全都是前提,既掌握大模型訓(xùn)練技術(shù)又熟悉行業(yè)專業(yè)知識(shí)的人才是關(guān)鍵。
中小企業(yè)因資金、技術(shù)和人才的限制,少有能力與基礎(chǔ)大模型提供方合作開(kāi)發(fā)行業(yè)大模型,MaaS(模型即服務(wù))應(yīng)運(yùn)而生,這是針對(duì)中小企業(yè)而提出的服務(wù)模式,MaaS部署在中小企業(yè)本地設(shè)備上或公有云上,以小切口嵌入PaaS與SaaS間,并提供調(diào)用基礎(chǔ)大模型的接口,可加入企業(yè)自身數(shù)據(jù)對(duì)模型精細(xì)化調(diào)整,從而將大模型能力嵌入到SaaS產(chǎn)品上,解決了傳統(tǒng)SaaS面臨的客戶定制化需求和標(biāo)準(zhǔn)化產(chǎn)品規(guī);g的難題;MaaS通過(guò)大模型可優(yōu)選小程序及配套的低代碼開(kāi)發(fā)和模型編排等工具,PaaS可據(jù)此搭建低代碼平臺(tái),豐富工具軟件,實(shí)現(xiàn)數(shù)據(jù)和功能的定制化,以MaaS方式使中小企業(yè)上云的同時(shí)使用個(gè)性化的小模型,為數(shù)字化轉(zhuǎn)型提供智能解決方案。當(dāng)前大模型不僅是一種技術(shù),它重塑了數(shù)據(jù)要素生態(tài)鏈,引領(lǐng)產(chǎn)業(yè)研究開(kāi)發(fā)應(yīng)用的范式變革,標(biāo)志著信息化發(fā)展從網(wǎng)絡(luò)驅(qū)動(dòng)到數(shù)據(jù)驅(qū)動(dòng)。面對(duì)大模型浪潮,需要在國(guó)家戰(zhàn)略與規(guī)劃部署下,統(tǒng)籌推進(jìn)政產(chǎn)學(xué)研用,引導(dǎo)“百模并發(fā)”形成合力,避免資源分散和低水平重復(fù),實(shí)現(xiàn)數(shù)據(jù)采集匯聚、加工處理、流通交易、開(kāi)發(fā)應(yīng)用全鏈條協(xié)同。
三、 數(shù)據(jù)助力社會(huì)治理信息化
習(xí)近平總書(shū)記指出“隨著互聯(lián)網(wǎng)運(yùn)用普及和大數(shù)據(jù)等技術(shù)快速發(fā)展,國(guó)家治理正逐步從線下向線下線上相結(jié)合轉(zhuǎn)變,從掌握少量‘樣本數(shù)據(jù)’向掌握海量‘全體數(shù)據(jù)’轉(zhuǎn)變,這為推動(dòng)治理模式變革、提升國(guó)家治理現(xiàn)代化水平提供了有利條件”。從網(wǎng)格化管理、精細(xì)化服務(wù)、信息化支撐的基層治理平臺(tái),到一網(wǎng)統(tǒng)攬一網(wǎng)通辦的城市大腦,利用大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等信息化手段感知社會(huì)態(tài)勢(shì)、暢通溝通渠道、支持快速響應(yīng),推進(jìn)政府決策科學(xué)化、社會(huì)治理精準(zhǔn)化、公共服務(wù)高效化。特別是AIGC技術(shù)的應(yīng)用,重構(gòu)政府與民眾之間的互動(dòng)過(guò)程,大模型能夠提升對(duì)現(xiàn)實(shí)生活中復(fù)雜大系統(tǒng)問(wèn)題的處理能力,能夠精準(zhǔn)防控社會(huì)發(fā)展中的風(fēng)險(xiǎn),能夠有力維護(hù)政治穩(wěn)定和社會(huì)安全,進(jìn)一步促進(jìn)經(jīng)濟(jì)發(fā)展和社會(huì)進(jìn)步。
AI特別是生成式大模型技術(shù)是雙刃劍,其推理過(guò)程不透明,解答有自圓其說(shuō)的成分,尤其使用了未經(jīng)鑒別的語(yǔ)料訓(xùn)練用于社會(huì)治理的大模型,可能會(huì)觸發(fā)對(duì)公眾的誤導(dǎo),甚至引起價(jià)值觀的沖突。AI技術(shù)也可能被濫用或惡意利用來(lái)制造虛假新聞,引發(fā)社會(huì)傳播風(fēng)險(xiǎn),危害國(guó)家安全。我們既要用AI來(lái)輔助社會(huì)治理也要治理AI行為,但不能因AI的使用可能失控而限制對(duì)AI技術(shù)的研究與應(yīng)用,AI技術(shù)需要在應(yīng)用中反饋和迭代升級(jí)。當(dāng)前,國(guó)際貿(mào)易、科技合作、人員往來(lái)不可避免數(shù)據(jù)跨境流動(dòng),數(shù)據(jù)的社會(huì)治理也面臨對(duì)外開(kāi)放的挑戰(zhàn),解決之道是AI監(jiān)管制度體系建設(shè)與AI技術(shù)研究并重,發(fā)展與安全治理協(xié)同,使AI的監(jiān)管創(chuàng)新與技術(shù)發(fā)展相輔相成,以技術(shù)手段和治理規(guī)范兩手應(yīng)對(duì)大模型的算法偏見(jiàn)和倫理道德失序,以法律法規(guī)防止各類數(shù)據(jù)安全事件發(fā)生和維護(hù)國(guó)家安全。為此,首先需要按照《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見(jiàn)》,盡快完善數(shù)據(jù)產(chǎn)權(quán)制度、數(shù)據(jù)要素流通和交易制度、數(shù)據(jù)要素收益分配制度、數(shù)據(jù)要素治理制度,為AI技術(shù)的發(fā)展與治理提供行為規(guī)范。其次是重視數(shù)據(jù)監(jiān)管的技術(shù)創(chuàng)新,APN6(基于IPv6的應(yīng)用感知網(wǎng)絡(luò)) 和iFIT(基于IPv6的隨流檢測(cè))可以標(biāo)注IP流的屬性,包括數(shù)據(jù)類型和對(duì)IP流路徑溯源,有利于對(duì)跨境數(shù)據(jù)流動(dòng)的管理,IPv6的多歸屬特性可以分流敏感數(shù)據(jù)。多方計(jì)算等技術(shù)可以在不同所有者的數(shù)據(jù)融合時(shí)做到數(shù)據(jù)可用不可見(jiàn)。加快各類數(shù)據(jù)監(jiān)管和數(shù)據(jù)安全技術(shù)的研究已成當(dāng)務(wù)之急,要為數(shù)據(jù)管理規(guī)范盡快填補(bǔ)技術(shù)支撐手段的不足或缺失。
四、加快數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)
大模型的數(shù)據(jù)訓(xùn)練與推理都需要算力支撐,中國(guó)2022年算力總規(guī)模為180Eflops,低于2021年美國(guó)的200Eflops,其中智能算力2022年中國(guó)為41Eflops,不及2021年美國(guó)的65Eflpos,這反映了我國(guó)在大模型的數(shù)據(jù)訓(xùn)練和推理算力上的差距。算力的建設(shè)是市場(chǎng)行為,但國(guó)家統(tǒng)籌推進(jìn)將優(yōu)化資源的利用和產(chǎn)業(yè)的合理布局。“東數(shù)西算”作為國(guó)家戰(zhàn)略部署具有中國(guó)特色,反映我國(guó)區(qū)域經(jīng)濟(jì)、地理氣候特點(diǎn)和能源分布的格局,政府之手的作用在東西部數(shù)據(jù)資源配置與有效應(yīng)用上不是可有可無(wú)的。西部不足之處是數(shù)據(jù)中心產(chǎn)業(yè)配套能力薄弱和人才短缺,需要同步規(guī)劃布局?jǐn)?shù)據(jù)清洗標(biāo)注、數(shù)據(jù)機(jī)房產(chǎn)品及服務(wù)業(yè)的培育發(fā)展,延伸產(chǎn)業(yè)鏈上下游,在做好承接?xùn)|部的溫冷數(shù)據(jù)的存算的同時(shí),還要帶動(dòng)起當(dāng)?shù)責(zé)釘?shù)據(jù)的上云服務(wù),使西部的數(shù)據(jù)集群發(fā)展形成良性循環(huán)。
算力的布局需要處理好幾方面的關(guān)系,一是通用算力與智能算力的合理比例,通用算力以CPU為主,適合處理政務(wù)、智慧城市和智能客服等數(shù)據(jù)/計(jì)算密集的事務(wù)性任務(wù);智能算力以GPU為主,適合做大模型的訓(xùn)練,注意到在數(shù)據(jù)訓(xùn)練過(guò)程中還需要算法工程師介入和微調(diào),智算中心適于在數(shù)據(jù)源集中和算法工程師聚集地建設(shè),不宜全面開(kāi)花,動(dòng)用財(cái)政資金支持的大型智算中心的建設(shè)應(yīng)慎重規(guī)劃。二是自建算力與云原生算力,很多單位有自建算力的積極性,但麥肯錫報(bào)告顯示,商用和企業(yè)數(shù)據(jù)中心的服務(wù)器很少超過(guò)6%的利用率,通常高達(dá)30%的服務(wù)器帶電閑置。需要鼓勵(lì)中小企業(yè)從自購(gòu)AI服務(wù)器搭建數(shù)據(jù)中心向采購(gòu)云服務(wù)轉(zhuǎn)變,既降低成本又提高利用率,增強(qiáng)抗DDoS的能力及減碳;需要引導(dǎo)縣級(jí)地方政府使用省地集中建設(shè)的政務(wù)云代替獨(dú)立采購(gòu)IT基礎(chǔ)設(shè)施。三是存算比例,存力與算力需配合,內(nèi)存與算力合理比例是GB/Gflops為1,避免因存力短缺造成算力等待而影響處理效率,據(jù)華為/羅蘭貝格報(bào)告,2020年美國(guó)為1:0.9,中國(guó)為1:2.4。四是災(zāi)備容量與主用數(shù)據(jù)中心存儲(chǔ)容量之比,數(shù)據(jù)中心需異地雙容災(zāi)備份,關(guān)鍵數(shù)據(jù)實(shí)現(xiàn)本地雙活,2020年當(dāng)年數(shù)據(jù)災(zāi)備保護(hù)占數(shù)據(jù)中心存儲(chǔ)投資的比例全球平均為27.4%,而我國(guó)只有7.8%,需重視改進(jìn)。
數(shù)據(jù)作為生產(chǎn)要素是經(jīng)濟(jì)理論與實(shí)踐的創(chuàng)新。數(shù)據(jù)與土地、勞動(dòng)力、資本等傳統(tǒng)生產(chǎn)要素不同,數(shù)據(jù)要素的開(kāi)發(fā)與治理有很多需要深入研究的問(wèn)題,例如數(shù)據(jù)的可復(fù)制性、使用無(wú)損性等導(dǎo)致數(shù)據(jù)產(chǎn)權(quán)和安全管理邊界難以界定。黨中央決策部署組建國(guó)家數(shù)據(jù)局,負(fù)責(zé)協(xié)調(diào)推進(jìn)數(shù)據(jù)基礎(chǔ)制度建設(shè),統(tǒng)籌數(shù)據(jù)資源整合共享和開(kāi)發(fā)利用,統(tǒng)籌推進(jìn)數(shù)字中國(guó)、數(shù)字經(jīng)濟(jì)、數(shù)字社會(huì)規(guī)劃和建設(shè)等,將有力促進(jìn)數(shù)據(jù)要素技術(shù)創(chuàng)新、開(kāi)發(fā)利用和有效治理,以數(shù)據(jù)強(qiáng)國(guó)支撐數(shù)字中國(guó)的建設(shè)。
(作者:中國(guó)工程院院士 鄔賀銓)
- 上一篇:Nature Geoscience|機(jī)器學(xué)習(xí)揭示氣溶膠的輻射 2023/11/12
- 下一篇:意義重大!國(guó)家數(shù)據(jù)局正式掛牌 2023/10/29