最近十幾年,以深度學(xué)習(xí)為代表的AI技術(shù)取得了巨大進(jìn)展。大語(yǔ)言模型的成功,仿佛使人類站在了智能化時(shí)代的起點(diǎn)。但以GPT為代表的大模型技術(shù)路線并不適合我國(guó)國(guó)情。
什么才是適合我國(guó)國(guó)情的AI發(fā)展路徑?如何才能保證我國(guó)AI長(zhǎng)期穩(wěn)定地發(fā)展?近日,中國(guó)科學(xué)院院士、北京大學(xué)國(guó)際機(jī)器學(xué)習(xí)研究中心主任鄂維南接受《瞭望》新聞周刊記者專訪時(shí)表示,單純堆砌大模型并非長(zhǎng)久之計(jì),我們應(yīng)在以下兩方面盡快布局:一是建立起一個(gè)完整的AI底層創(chuàng)新體系和創(chuàng)新團(tuán)隊(duì),在模型架構(gòu)、AI系統(tǒng)、數(shù)據(jù)處理工具、高效訓(xùn)練芯片等方向謀求新突破。二是探索AI的基本原理,盡管我們與掌握AI的基本原理還有很大差距,但是我們已經(jīng)具備了探索這些基本原理的條件。而長(zhǎng)期穩(wěn)定發(fā)展的技術(shù)路線,必然會(huì)在這個(gè)探索過(guò)程中產(chǎn)生出來(lái)。
多年來(lái),鄂維南帶領(lǐng)團(tuán)隊(duì)積極探索適合中國(guó)國(guó)情的AI發(fā)展路徑,尤其是在中國(guó)AI for Science的發(fā)展中起到了引領(lǐng)作用。
堆砌大模型之路不適合我國(guó)
《瞭望》:目前世界上主流的AI發(fā)展技術(shù)框架和思維模式是什么?
鄂維南:自2012年起,AI領(lǐng)域取得了顯著的成就:2016年,基于深度強(qiáng)化學(xué)習(xí)的AI方法,DeepMind的AlphaGo在圍棋比賽中戰(zhàn)勝了世界冠軍李世石,這是AI首次在圍棋這一復(fù)雜游戲中擊敗人類頂尖選手。2023年,OpenAI發(fā)布了ChatGPT,這是一個(gè)強(qiáng)大的語(yǔ)言模型,它在自然語(yǔ)言理解和生成方面達(dá)到了前所未有的水平。今年,DeepMind推出了AlphaGeometry,這是一個(gè)能夠在數(shù)學(xué)競(jìng)賽中表現(xiàn)出色的AI系統(tǒng),展示了在解決復(fù)雜幾何問(wèn)題方面取得的突破。今年另一個(gè)值得關(guān)注的AI進(jìn)展是Sora,它能夠通過(guò)簡(jiǎn)單的文本提示生成逼真的視頻,這標(biāo)志著物理世界與虛擬世界之間的橋梁已經(jīng)開(kāi)始建立。此外,在科學(xué)領(lǐng)域,AI方法解決了蛋白結(jié)構(gòu)這樣一個(gè)生命科學(xué)中的基礎(chǔ)問(wèn)題,這是許多人未曾預(yù)料到的成就。
AI取得進(jìn)步的一個(gè)重要原因就是深度神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用。盡管深度學(xué)習(xí)受到熱捧之前人們就已經(jīng)在處理和分析大數(shù)據(jù),但是真正讓大數(shù)據(jù)充分發(fā)揮作用的方法是深度學(xué)習(xí),其標(biāo)志性事件是辛頓團(tuán)隊(duì)于2012年贏得ImageNet圖像識(shí)別比賽冠軍。辛頓等人設(shè)計(jì)并訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),取名AlexNet。AlexNet有5層卷積網(wǎng)絡(luò)、3層全連接網(wǎng)絡(luò),6000多萬(wàn)個(gè)參數(shù)。需要強(qiáng)調(diào)的是,辛頓等人在訓(xùn)練AlexNet的時(shí)候用的主要算法,如隨機(jī)梯度下降、反向傳播等都是已知的。辛頓團(tuán)隊(duì)的工作就是充分訓(xùn)練了這樣一個(gè)多層神經(jīng)網(wǎng)絡(luò)。
辛頓等人的工作不僅改變了圖像識(shí)別,而且改變了整個(gè)AI領(lǐng)域,因?yàn)榛谏窠?jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法是一個(gè)通用方法。神經(jīng)網(wǎng)絡(luò)其實(shí)就是一類函數(shù),它與多項(xiàng)式這類函數(shù)的不同之處在于它似乎是逼近多變量函數(shù)的有效工具。也就是說(shuō),它能夠有效地幫助我們克服維數(shù)災(zāi)難和組合爆炸引起的困難,這是過(guò)去的AI方法難以做到的。因此神經(jīng)網(wǎng)絡(luò)也可以被用來(lái)解決科學(xué)領(lǐng)域碰到的多個(gè)自由度的問(wèn)題,如蛋白結(jié)構(gòu)問(wèn)題、分子動(dòng)力學(xué)勢(shì)能函數(shù)問(wèn)題等,由此催生出了一個(gè)嶄新的科研范式:AI for Science。正因?yàn)樯疃葘W(xué)習(xí)在多變量函數(shù)逼近這樣一個(gè)非?;A(chǔ)性的問(wèn)題上帶來(lái)了巨大突破,所以它在各種各樣的問(wèn)題上都給我們帶來(lái)了新的可能。
大模型技術(shù)是一個(gè)新的突破。之前的深度學(xué)習(xí)技術(shù)考慮的是單個(gè)任務(wù)和單個(gè)數(shù)據(jù)集,大模型考慮的是所有任務(wù)和所有數(shù)據(jù)。以O(shè)penAI的GPT為代表的大模型技術(shù)在文本任務(wù)和文本數(shù)據(jù)上展示了令人驚奇的成功。但總體來(lái)說(shuō),大模型技術(shù)還遠(yuǎn)沒(méi)有成熟。
《瞭望》:為什么說(shuō)這一主流的AI發(fā)展模式不適合我國(guó)?
鄂維南:從長(zhǎng)遠(yuǎn)的角度來(lái)看,目前以GPT為代表的技術(shù)路徑并不適合我國(guó)國(guó)情。
首先,我國(guó)的算力與美國(guó)的相比有相當(dāng)大的差距。目前國(guó)內(nèi)大模型第一梯隊(duì)的算力資源基本上是萬(wàn)卡規(guī)模,比如擁有1萬(wàn)張英偉達(dá)A100或類似級(jí)別的GPU卡。然而美國(guó)的第一梯隊(duì)能達(dá)到10萬(wàn)卡甚至更大規(guī)模,10萬(wàn)張卡的價(jià)值大約是200億到300億元人民幣,這對(duì)許多團(tuán)隊(duì)來(lái)說(shuō)是一個(gè)巨大的成本負(fù)擔(dān),許多開(kāi)發(fā)基座模型的國(guó)內(nèi)團(tuán)隊(duì)可能不得不停下追趕的腳步。
其次,從計(jì)算量和參數(shù)規(guī)模的角度來(lái)說(shuō),GPT存在巨大浪費(fèi)。我們可以通過(guò)新的框架和計(jì)算方法來(lái)避免這種浪費(fèi)。
最后,對(duì)圖像等問(wèn)題,GPT不一定是最佳技術(shù)路徑,我們還需要尋求更加有效的技術(shù)方案。
建立完整的AI底層創(chuàng)新體系
《瞭望》:發(fā)展新一代AI,需要解決哪些問(wèn)題?
鄂維南:要尋找替代路線,并保證我國(guó)AI得到持續(xù)、穩(wěn)定的發(fā)展,就必須研究AI的底層邏輯,探索其基本原理,解決算力、數(shù)據(jù)、算法中的一些核心問(wèn)題。另外,我們還需要探索數(shù)據(jù)以外的其他思路,包括邏輯推理、幾何表示和物理規(guī)律的應(yīng)用。
從算力角度看,我國(guó)已經(jīng)建設(shè)了一些算力中心,比如萬(wàn)卡規(guī)模的機(jī)房。我們還需要持續(xù)投入,盡管需要尋求新的人工智能技術(shù)路徑,但是在算力上的投入不能放松。未來(lái)我們可能需要考慮如何把分布在全國(guó)各地的算力資源有效地綜合利用起來(lái),以支撐基座模型的訓(xùn)練。要做到這一點(diǎn),還需要從模型的層面、算法的層面做一些改變,尋找更加適合于分布式算力和遠(yuǎn)程通信的模型框架。
從數(shù)據(jù)角度看,我們需要一套高效率、標(biāo)準(zhǔn)化的數(shù)據(jù)處理工具。處理好數(shù)據(jù)是提升模型能力的主要手段。現(xiàn)在我們?nèi)狈Ω咝实臄?shù)據(jù)處理工具。除數(shù)據(jù)清洗和標(biāo)注工具以外,還需要對(duì)數(shù)據(jù)做不同維度的畫像的工具,評(píng)估數(shù)據(jù)質(zhì)量、數(shù)據(jù)難度的工具等。
從算法和模型的角度來(lái)看,我們要給模型瘦身。目前的主流技術(shù)框架是把知識(shí)和推理能力都放在大模型里面。其實(shí)一些具體知識(shí)沒(méi)必要放在模型里面。我們可以把它們存到一個(gè)知識(shí)庫(kù)里面,讓大模型隨時(shí)調(diào)用。這樣做就會(huì)大大降低模型規(guī)模。對(duì)不常用的知識(shí),業(yè)界流行的外掛數(shù)據(jù)庫(kù)就可以實(shí)現(xiàn)這一技術(shù)方案。對(duì)經(jīng)常用的知識(shí),我們需要更加高效的方法,這就是我們推出的“憶立方”模型要解決的問(wèn)題。
我們還需要提高學(xué)習(xí)效率。目前大模型是純粹通過(guò)刷題的方式來(lái)學(xué)習(xí)。例如為了做加減乘除運(yùn)算,GPT即便是學(xué)了1萬(wàn)道題目,它也并沒(méi)有真正學(xué)到加減乘除的規(guī)則。這樣的算法不夠有效,是在拼蠻力。
要解決這個(gè)問(wèn)題,我們需要把規(guī)則和大模型的學(xué)習(xí)能力結(jié)合在一起。一個(gè)例子是DeepMind推出的AlphaGeometry,它求解國(guó)際奧林匹克數(shù)學(xué)競(jìng)賽中平面幾何題目的能力接近了人類最高水平。它的主要做法是把邏輯推理方法和經(jīng)驗(yàn)方法相結(jié)合:定理庫(kù)和樹(shù)搜索提供具體證明,而機(jī)器學(xué)習(xí)模型提供思路,比如如何加輔助線。簡(jiǎn)單來(lái)說(shuō),定理庫(kù)里面就是很多平面幾何的定理。一般平面幾何最難的地方是如何加輔助線。這要靠經(jīng)驗(yàn),靠積累,這是大模型擅長(zhǎng)的。下一步它就到定理庫(kù)里面去找哪個(gè)定理可以用,用了以后能夠把問(wèn)題簡(jiǎn)化。這種方法不僅僅是對(duì)平面幾何,在更廣泛的場(chǎng)景都可以用。
《瞭望》:你帶領(lǐng)團(tuán)隊(duì)在建立AI底層創(chuàng)新體系方面,已經(jīng)做了哪些工作?
鄂維南:我們希望能夠全方位探索AI基本原理并且在此基礎(chǔ)上尋找下一代AI系統(tǒng)的技術(shù)路線。目前我們的努力主要集中在數(shù)據(jù)和模型兩個(gè)方面。
在數(shù)據(jù)處理方面,我們團(tuán)隊(duì)研發(fā)了國(guó)際上第一個(gè)專門為大規(guī)模結(jié)構(gòu)化+非結(jié)構(gòu)化數(shù)據(jù)處理打造的AI數(shù)據(jù)庫(kù)MyScale(此前稱為MQDB),這也是目前國(guó)內(nèi)綜合性能最好、功能最強(qiáng)的AI數(shù)據(jù)庫(kù)。
MyScale拓展了結(jié)構(gòu)化查詢語(yǔ)言,在同一個(gè)系統(tǒng)中支持海量結(jié)構(gòu)化、向量、文本、JSON數(shù)據(jù)交換格式、空間、時(shí)序等各類異構(gòu)數(shù)據(jù)的高效存儲(chǔ)和聯(lián)合查詢,數(shù)據(jù)密度、插入速度、查詢效率優(yōu)于國(guó)內(nèi)外其他系統(tǒng)。
比如,MyScale能夠?qū)崿F(xiàn)海量非結(jié)構(gòu)化數(shù)據(jù)清洗,減少數(shù)據(jù)收集量、數(shù)據(jù)標(biāo)注,提高效率,降低成本。假設(shè)我們要訓(xùn)練一個(gè)自動(dòng)駕駛模型,我們就要處理各種不同的復(fù)雜場(chǎng)景。因此我們需要高效率、高精度地抽取相應(yīng)場(chǎng)景的數(shù)據(jù)。我們可以在MyScale數(shù)據(jù)庫(kù)中直接搜索“行人過(guò)馬路”或“人行道上的行人或自行車”等場(chǎng)景來(lái)獲取相應(yīng)的數(shù)據(jù),方便快捷。近期我們已將MyScale進(jìn)行了開(kāi)源,大部分功能已經(jīng)在開(kāi)源版本中推出,完全可以滿足用戶數(shù)據(jù)量不太大時(shí)候的需求,歡迎大家去使用。
在模型算法方面,我們團(tuán)隊(duì)打造了“憶立方”模型,它通過(guò)將知識(shí)分層處理,并引入內(nèi)置數(shù)據(jù)庫(kù),來(lái)提高知識(shí)寫入和讀取的效率。根據(jù)一個(gè)知識(shí)的使用頻率,來(lái)決定它的處理方式。使用頻率最高的知識(shí),我們把它放在大模型中,最低的放在外掛數(shù)據(jù)庫(kù)中,常用的專業(yè)知識(shí)則放在內(nèi)置數(shù)據(jù)庫(kù)中。這樣不但可以大大降低對(duì)模型規(guī)模的要求,同時(shí)也提高了知識(shí)的使用效率。
加快創(chuàng)新人才、創(chuàng)新生態(tài)培育
《瞭望》:建立完整的AI底層創(chuàng)新體系,還需要怎么做?
鄂維南:建立完整的AI底層創(chuàng)新體系,需要探索AI發(fā)展的底層邏輯和基本原理,這是AI長(zhǎng)期發(fā)展的基礎(chǔ)。沒(méi)有對(duì)基本原理的理解,我們無(wú)法保證AI的持續(xù)進(jìn)步,無(wú)法知道下一步該如何走。從AI發(fā)展的歷史上看,它經(jīng)歷了幾次大起大落,以及不斷的小起小落。這種情況的出現(xiàn),實(shí)際上也是因?yàn)槲覀儗?duì)基本原理和底層邏輯的理解不夠深入。
探索AI的基本原理是一個(gè)非常困難的任務(wù),這一探索需要多方面人才、多方面資源的緊密合作和結(jié)合。
在人才培養(yǎng)方面,目前我們的主要精力都集中在離AI應(yīng)用最近的人才身上,如機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理等。但AI的長(zhǎng)期穩(wěn)定發(fā)展需要多方面、多層次的人才。建議從整個(gè)計(jì)算產(chǎn)業(yè)的角度全面布局AI發(fā)展藍(lán)圖,創(chuàng)新人才培養(yǎng)方式,培養(yǎng)綜合性、前瞻性人才,建設(shè)高質(zhì)量、多層次人才梯隊(duì)。
現(xiàn)在很多高校都成立了AI學(xué)院,這既是好事,但也可能成為一件壞事。應(yīng)該認(rèn)識(shí)到,AI是一個(gè)非常特殊的學(xué)科,它不只是一個(gè)典型的專業(yè),還是一個(gè)需要從全校層面進(jìn)行規(guī)劃和布局的核心領(lǐng)域。僅就人才培養(yǎng)來(lái)說(shuō),對(duì)于AI方面的專業(yè)人才,我們要同時(shí)注重基本原理的思維能力和工程能力;對(duì)非AI專業(yè)的人才,我們必須切實(shí)加強(qiáng)AI通識(shí)教育。
另外,建議注重實(shí)現(xiàn)人才資源和算力資源的有效對(duì)接。高校不缺人才但缺算力資源,大企業(yè)不缺算力但在人才資源方面處于劣勢(shì)。我們需要將有限的人才資源和算力資源有效地對(duì)接起來(lái)。
從創(chuàng)新生態(tài)來(lái)看,加快建立鼓勵(lì)原始創(chuàng)新的生態(tài)環(huán)境及文化,提倡做與眾不同的事情,提倡“別人做了,我就不再去湊熱鬧”的科研心態(tài)。市場(chǎng)應(yīng)給創(chuàng)新足夠的生存空間,政府部門應(yīng)更加重視資源分配的合理性。作為創(chuàng)新群體,我們必須具備高度的社會(huì)責(zé)任感、冒險(xiǎn)精神和實(shí)干精神,下決心真正從源頭上解決科技創(chuàng)新中面臨的困難,開(kāi)創(chuàng)嶄新的局面。
最近十幾年,以深度學(xué)習(xí)為代表的AI技術(shù)取得了巨大進(jìn)展。大語(yǔ)言模型的成功,仿佛使人類站在了智能化時(shí)代的起點(diǎn)。但以GPT為代表的大模型技術(shù)路線并不適合我國(guó)國(guó)情。
什么才是適合我國(guó)國(guó)情的AI發(fā)展路徑?如何才能保證我國(guó)AI長(zhǎng)期穩(wěn)定地發(fā)展?近日,中國(guó)科學(xué)院院士、北京大學(xué)國(guó)際機(jī)器學(xué)習(xí)研究中心主任鄂維南接受《瞭望》新聞周刊記者專訪時(shí)表示,單純堆砌大模型并非長(zhǎng)久之計(jì),我們應(yīng)在以下兩方面盡快布局:一是建立起一個(gè)完整的AI底層創(chuàng)新體系和創(chuàng)新團(tuán)隊(duì),在模型架構(gòu)、AI系統(tǒng)、數(shù)據(jù)處理工具、高效訓(xùn)練芯片等方向謀求新突破。二是探索AI的基本原理,盡管我們與掌握AI的基本原理還有很大差距,但是我們已經(jīng)具備了探索這些基本原理的條件。而長(zhǎng)期穩(wěn)定發(fā)展的技術(shù)路線,必然會(huì)在這個(gè)探索過(guò)程中產(chǎn)生出來(lái)。
多年來(lái),鄂維南帶領(lǐng)團(tuán)隊(duì)積極探索適合中國(guó)國(guó)情的AI發(fā)展路徑,尤其是在中國(guó)AI for Science的發(fā)展中起到了引領(lǐng)作用。
堆砌大模型之路不適合我國(guó)
《瞭望》:目前世界上主流的AI發(fā)展技術(shù)框架和思維模式是什么?
鄂維南:自2012年起,AI領(lǐng)域取得了顯著的成就:2016年,基于深度強(qiáng)化學(xué)習(xí)的AI方法,DeepMind的AlphaGo在圍棋比賽中戰(zhàn)勝了世界冠軍李世石,這是AI首次在圍棋這一復(fù)雜游戲中擊敗人類頂尖選手。2023年,OpenAI發(fā)布了ChatGPT,這是一個(gè)強(qiáng)大的語(yǔ)言模型,它在自然語(yǔ)言理解和生成方面達(dá)到了前所未有的水平。今年,DeepMind推出了AlphaGeometry,這是一個(gè)能夠在數(shù)學(xué)競(jìng)賽中表現(xiàn)出色的AI系統(tǒng),展示了在解決復(fù)雜幾何問(wèn)題方面取得的突破。今年另一個(gè)值得關(guān)注的AI進(jìn)展是Sora,它能夠通過(guò)簡(jiǎn)單的文本提示生成逼真的視頻,這標(biāo)志著物理世界與虛擬世界之間的橋梁已經(jīng)開(kāi)始建立。此外,在科學(xué)領(lǐng)域,AI方法解決了蛋白結(jié)構(gòu)這樣一個(gè)生命科學(xué)中的基礎(chǔ)問(wèn)題,這是許多人未曾預(yù)料到的成就。
AI取得進(jìn)步的一個(gè)重要原因就是深度神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用。盡管深度學(xué)習(xí)受到熱捧之前人們就已經(jīng)在處理和分析大數(shù)據(jù),但是真正讓大數(shù)據(jù)充分發(fā)揮作用的方法是深度學(xué)習(xí),其標(biāo)志性事件是辛頓團(tuán)隊(duì)于2012年贏得ImageNet圖像識(shí)別比賽冠軍。辛頓等人設(shè)計(jì)并訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),取名AlexNet。AlexNet有5層卷積網(wǎng)絡(luò)、3層全連接網(wǎng)絡(luò),6000多萬(wàn)個(gè)參數(shù)。需要強(qiáng)調(diào)的是,辛頓等人在訓(xùn)練AlexNet的時(shí)候用的主要算法,如隨機(jī)梯度下降、反向傳播等都是已知的。辛頓團(tuán)隊(duì)的工作就是充分訓(xùn)練了這樣一個(gè)多層神經(jīng)網(wǎng)絡(luò)。
辛頓等人的工作不僅改變了圖像識(shí)別,而且改變了整個(gè)AI領(lǐng)域,因?yàn)榛谏窠?jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法是一個(gè)通用方法。神經(jīng)網(wǎng)絡(luò)其實(shí)就是一類函數(shù),它與多項(xiàng)式這類函數(shù)的不同之處在于它似乎是逼近多變量函數(shù)的有效工具。也就是說(shuō),它能夠有效地幫助我們克服維數(shù)災(zāi)難和組合爆炸引起的困難,這是過(guò)去的AI方法難以做到的。因此神經(jīng)網(wǎng)絡(luò)也可以被用來(lái)解決科學(xué)領(lǐng)域碰到的多個(gè)自由度的問(wèn)題,如蛋白結(jié)構(gòu)問(wèn)題、分子動(dòng)力學(xué)勢(shì)能函數(shù)問(wèn)題等,由此催生出了一個(gè)嶄新的科研范式:AI for Science。正因?yàn)樯疃葘W(xué)習(xí)在多變量函數(shù)逼近這樣一個(gè)非常基礎(chǔ)性的問(wèn)題上帶來(lái)了巨大突破,所以它在各種各樣的問(wèn)題上都給我們帶來(lái)了新的可能。
大模型技術(shù)是一個(gè)新的突破。之前的深度學(xué)習(xí)技術(shù)考慮的是單個(gè)任務(wù)和單個(gè)數(shù)據(jù)集,大模型考慮的是所有任務(wù)和所有數(shù)據(jù)。以O(shè)penAI的GPT為代表的大模型技術(shù)在文本任務(wù)和文本數(shù)據(jù)上展示了令人驚奇的成功。但總體來(lái)說(shuō),大模型技術(shù)還遠(yuǎn)沒(méi)有成熟。
《瞭望》:為什么說(shuō)這一主流的AI發(fā)展模式不適合我國(guó)?
鄂維南:從長(zhǎng)遠(yuǎn)的角度來(lái)看,目前以GPT為代表的技術(shù)路徑并不適合我國(guó)國(guó)情。
首先,我國(guó)的算力與美國(guó)的相比有相當(dāng)大的差距。目前國(guó)內(nèi)大模型第一梯隊(duì)的算力資源基本上是萬(wàn)卡規(guī)模,比如擁有1萬(wàn)張英偉達(dá)A100或類似級(jí)別的GPU卡。然而美國(guó)的第一梯隊(duì)能達(dá)到10萬(wàn)卡甚至更大規(guī)模,10萬(wàn)張卡的價(jià)值大約是200億到300億元人民幣,這對(duì)許多團(tuán)隊(duì)來(lái)說(shuō)是一個(gè)巨大的成本負(fù)擔(dān),許多開(kāi)發(fā)基座模型的國(guó)內(nèi)團(tuán)隊(duì)可能不得不停下追趕的腳步。
其次,從計(jì)算量和參數(shù)規(guī)模的角度來(lái)說(shuō),GPT存在巨大浪費(fèi)。我們可以通過(guò)新的框架和計(jì)算方法來(lái)避免這種浪費(fèi)。
最后,對(duì)圖像等問(wèn)題,GPT不一定是最佳技術(shù)路徑,我們還需要尋求更加有效的技術(shù)方案。
建立完整的AI底層創(chuàng)新體系
《瞭望》:發(fā)展新一代AI,需要解決哪些問(wèn)題?
鄂維南:要尋找替代路線,并保證我國(guó)AI得到持續(xù)、穩(wěn)定的發(fā)展,就必須研究AI的底層邏輯,探索其基本原理,解決算力、數(shù)據(jù)、算法中的一些核心問(wèn)題。另外,我們還需要探索數(shù)據(jù)以外的其他思路,包括邏輯推理、幾何表示和物理規(guī)律的應(yīng)用。
從算力角度看,我國(guó)已經(jīng)建設(shè)了一些算力中心,比如萬(wàn)卡規(guī)模的機(jī)房。我們還需要持續(xù)投入,盡管需要尋求新的人工智能技術(shù)路徑,但是在算力上的投入不能放松。未來(lái)我們可能需要考慮如何把分布在全國(guó)各地的算力資源有效地綜合利用起來(lái),以支撐基座模型的訓(xùn)練。要做到這一點(diǎn),還需要從模型的層面、算法的層面做一些改變,尋找更加適合于分布式算力和遠(yuǎn)程通信的模型框架。
從數(shù)據(jù)角度看,我們需要一套高效率、標(biāo)準(zhǔn)化的數(shù)據(jù)處理工具。處理好數(shù)據(jù)是提升模型能力的主要手段?,F(xiàn)在我們?nèi)狈Ω咝实臄?shù)據(jù)處理工具。除數(shù)據(jù)清洗和標(biāo)注工具以外,還需要對(duì)數(shù)據(jù)做不同維度的畫像的工具,評(píng)估數(shù)據(jù)質(zhì)量、數(shù)據(jù)難度的工具等。
從算法和模型的角度來(lái)看,我們要給模型瘦身。目前的主流技術(shù)框架是把知識(shí)和推理能力都放在大模型里面。其實(shí)一些具體知識(shí)沒(méi)必要放在模型里面。我們可以把它們存到一個(gè)知識(shí)庫(kù)里面,讓大模型隨時(shí)調(diào)用。這樣做就會(huì)大大降低模型規(guī)模。對(duì)不常用的知識(shí),業(yè)界流行的外掛數(shù)據(jù)庫(kù)就可以實(shí)現(xiàn)這一技術(shù)方案。對(duì)經(jīng)常用的知識(shí),我們需要更加高效的方法,這就是我們推出的“憶立方”模型要解決的問(wèn)題。
我們還需要提高學(xué)習(xí)效率。目前大模型是純粹通過(guò)刷題的方式來(lái)學(xué)習(xí)。例如為了做加減乘除運(yùn)算,GPT即便是學(xué)了1萬(wàn)道題目,它也并沒(méi)有真正學(xué)到加減乘除的規(guī)則。這樣的算法不夠有效,是在拼蠻力。
要解決這個(gè)問(wèn)題,我們需要把規(guī)則和大模型的學(xué)習(xí)能力結(jié)合在一起。一個(gè)例子是DeepMind推出的AlphaGeometry,它求解國(guó)際奧林匹克數(shù)學(xué)競(jìng)賽中平面幾何題目的能力接近了人類最高水平。它的主要做法是把邏輯推理方法和經(jīng)驗(yàn)方法相結(jié)合:定理庫(kù)和樹(shù)搜索提供具體證明,而機(jī)器學(xué)習(xí)模型提供思路,比如如何加輔助線。簡(jiǎn)單來(lái)說(shuō),定理庫(kù)里面就是很多平面幾何的定理。一般平面幾何最難的地方是如何加輔助線。這要靠經(jīng)驗(yàn),靠積累,這是大模型擅長(zhǎng)的。下一步它就到定理庫(kù)里面去找哪個(gè)定理可以用,用了以后能夠把問(wèn)題簡(jiǎn)化。這種方法不僅僅是對(duì)平面幾何,在更廣泛的場(chǎng)景都可以用。
《瞭望》:你帶領(lǐng)團(tuán)隊(duì)在建立AI底層創(chuàng)新體系方面,已經(jīng)做了哪些工作?
鄂維南:我們希望能夠全方位探索AI基本原理并且在此基礎(chǔ)上尋找下一代AI系統(tǒng)的技術(shù)路線。目前我們的努力主要集中在數(shù)據(jù)和模型兩個(gè)方面。
在數(shù)據(jù)處理方面,我們團(tuán)隊(duì)研發(fā)了國(guó)際上第一個(gè)專門為大規(guī)模結(jié)構(gòu)化+非結(jié)構(gòu)化數(shù)據(jù)處理打造的AI數(shù)據(jù)庫(kù)MyScale(此前稱為MQDB),這也是目前國(guó)內(nèi)綜合性能最好、功能最強(qiáng)的AI數(shù)據(jù)庫(kù)。
MyScale拓展了結(jié)構(gòu)化查詢語(yǔ)言,在同一個(gè)系統(tǒng)中支持海量結(jié)構(gòu)化、向量、文本、JSON數(shù)據(jù)交換格式、空間、時(shí)序等各類異構(gòu)數(shù)據(jù)的高效存儲(chǔ)和聯(lián)合查詢,數(shù)據(jù)密度、插入速度、查詢效率優(yōu)于國(guó)內(nèi)外其他系統(tǒng)。
比如,MyScale能夠?qū)崿F(xiàn)海量非結(jié)構(gòu)化數(shù)據(jù)清洗,減少數(shù)據(jù)收集量、數(shù)據(jù)標(biāo)注,提高效率,降低成本。假設(shè)我們要訓(xùn)練一個(gè)自動(dòng)駕駛模型,我們就要處理各種不同的復(fù)雜場(chǎng)景。因此我們需要高效率、高精度地抽取相應(yīng)場(chǎng)景的數(shù)據(jù)。我們可以在MyScale數(shù)據(jù)庫(kù)中直接搜索“行人過(guò)馬路”或“人行道上的行人或自行車”等場(chǎng)景來(lái)獲取相應(yīng)的數(shù)據(jù),方便快捷。近期我們已將MyScale進(jìn)行了開(kāi)源,大部分功能已經(jīng)在開(kāi)源版本中推出,完全可以滿足用戶數(shù)據(jù)量不太大時(shí)候的需求,歡迎大家去使用。
在模型算法方面,我們團(tuán)隊(duì)打造了“憶立方”模型,它通過(guò)將知識(shí)分層處理,并引入內(nèi)置數(shù)據(jù)庫(kù),來(lái)提高知識(shí)寫入和讀取的效率。根據(jù)一個(gè)知識(shí)的使用頻率,來(lái)決定它的處理方式。使用頻率最高的知識(shí),我們把它放在大模型中,最低的放在外掛數(shù)據(jù)庫(kù)中,常用的專業(yè)知識(shí)則放在內(nèi)置數(shù)據(jù)庫(kù)中。這樣不但可以大大降低對(duì)模型規(guī)模的要求,同時(shí)也提高了知識(shí)的使用效率。
加快創(chuàng)新人才、創(chuàng)新生態(tài)培育
《瞭望》:建立完整的AI底層創(chuàng)新體系,還需要怎么做?
鄂維南:建立完整的AI底層創(chuàng)新體系,需要探索AI發(fā)展的底層邏輯和基本原理,這是AI長(zhǎng)期發(fā)展的基礎(chǔ)。沒(méi)有對(duì)基本原理的理解,我們無(wú)法保證AI的持續(xù)進(jìn)步,無(wú)法知道下一步該如何走。從AI發(fā)展的歷史上看,它經(jīng)歷了幾次大起大落,以及不斷的小起小落。這種情況的出現(xiàn),實(shí)際上也是因?yàn)槲覀儗?duì)基本原理和底層邏輯的理解不夠深入。
探索AI的基本原理是一個(gè)非常困難的任務(wù),這一探索需要多方面人才、多方面資源的緊密合作和結(jié)合。
在人才培養(yǎng)方面,目前我們的主要精力都集中在離AI應(yīng)用最近的人才身上,如機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理等。但AI的長(zhǎng)期穩(wěn)定發(fā)展需要多方面、多層次的人才。建議從整個(gè)計(jì)算產(chǎn)業(yè)的角度全面布局AI發(fā)展藍(lán)圖,創(chuàng)新人才培養(yǎng)方式,培養(yǎng)綜合性、前瞻性人才,建設(shè)高質(zhì)量、多層次人才梯隊(duì)。
現(xiàn)在很多高校都成立了AI學(xué)院,這既是好事,但也可能成為一件壞事。應(yīng)該認(rèn)識(shí)到,AI是一個(gè)非常特殊的學(xué)科,它不只是一個(gè)典型的專業(yè),還是一個(gè)需要從全校層面進(jìn)行規(guī)劃和布局的核心領(lǐng)域。僅就人才培養(yǎng)來(lái)說(shuō),對(duì)于AI方面的專業(yè)人才,我們要同時(shí)注重基本原理的思維能力和工程能力;對(duì)非AI專業(yè)的人才,我們必須切實(shí)加強(qiáng)AI通識(shí)教育。
另外,建議注重實(shí)現(xiàn)人才資源和算力資源的有效對(duì)接。高校不缺人才但缺算力資源,大企業(yè)不缺算力但在人才資源方面處于劣勢(shì)。我們需要將有限的人才資源和算力資源有效地對(duì)接起來(lái)。
從創(chuàng)新生態(tài)來(lái)看,加快建立鼓勵(lì)原始創(chuàng)新的生態(tài)環(huán)境及文化,提倡做與眾不同的事情,提倡“別人做了,我就不再去湊熱鬧”的科研心態(tài)。市場(chǎng)應(yīng)給創(chuàng)新足夠的生存空間,政府部門應(yīng)更加重視資源分配的合理性。作為創(chuàng)新群體,我們必須具備高度的社會(huì)責(zé)任感、冒險(xiǎn)精神和實(shí)干精神,下決心真正從源頭上解決科技創(chuàng)新中面臨的困難,開(kāi)創(chuàng)嶄新的局面。
本文鏈接:http://www.3ypm.com.cn/news-2-45973-0.html尋找AI發(fā)展新路徑——專訪中國(guó)科學(xué)院院士鄂維南
聲明:本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
下一篇:首次試飛發(fā)現(xiàn)問(wèn)題 美國(guó)波音777X客機(jī)結(jié)構(gòu)出現(xiàn)裂縫
點(diǎn)擊右上角微信好友
朋友圈
點(diǎn)擊瀏覽器下方“”分享微信好友Safari瀏覽器請(qǐng)點(diǎn)擊“”按鈕
點(diǎn)擊右上角QQ
點(diǎn)擊瀏覽器下方“”分享QQ好友Safari瀏覽器請(qǐng)點(diǎn)擊“”按鈕