導(dǎo)讀:未來AI的發(fā)展趨勢最大的可能是借各種流派之長創(chuàng)造新的AI算法,既包含邏輯符號也有數(shù)據(jù)和知識,還要借鑒人類的進化和大腦的特點。
人工智能從20世紀50年代開始,經(jīng)歷了60年起伏的發(fā)展歷程。其中,AI共經(jīng)歷了2次發(fā)展的春天和冬天,現(xiàn)在正在經(jīng)歷第3個春天,即以數(shù)據(jù)為驅(qū)動力的深度學(xué)習(xí)。谷歌的AlphaGo、AlphaZero、AlphaFold是很好的標(biāo)志性產(chǎn)品。
佩德羅多明戈斯曾總結(jié)了AI的五大流派,包括符號、進化學(xué)派、類比學(xué)派、貝葉斯學(xué)派和連接機制。未來AI的發(fā)展趨勢最大的可能是借各種流派之長創(chuàng)造新的AI算法,既包含邏輯符號也有數(shù)據(jù)和知識,還要借鑒人類的進化和大腦的特點。所以,當(dāng)前無論是科學(xué)研究還是產(chǎn)業(yè)發(fā)展,都在思考下一輪AI的突破點在什么地方。
算力需求飛速增長的瓶頸
對深度學(xué)習(xí)來說,半導(dǎo)體與芯片架構(gòu)領(lǐng)域的進步是不可或缺的發(fā)展動力。谷歌公司的杰夫狄恩曾說過:“數(shù)據(jù)+算法+算力=數(shù)據(jù)+100×算力”。也就是說,他認為在數(shù)據(jù)、算法和算力三大因素中,算力占據(jù)著絕對的主導(dǎo)地位,算法則相對來說沒有那么重要。
隨著時代的發(fā)展,深度學(xué)習(xí)在訓(xùn)練過程中產(chǎn)生的計算量可以分成兩個階段:在深度學(xué)習(xí)發(fā)展的初期階段,訓(xùn)練產(chǎn)生的計算量的增長速率相對較慢;近10年間,計算量以每年10倍的速率增長,遠遠超過摩爾定律每18~24個月提高2倍的增長速率。
深度學(xué)習(xí)訓(xùn)練過程中計算量需求的發(fā)展
以O(shè)penAI發(fā)布的預(yù)訓(xùn)練模型GPT為例,來說明近幾年來機器學(xué)習(xí)領(lǐng)域?qū)λ懔π枨蟮娘w速增長。2018年6月發(fā)布的GPT-1是在約5GB的文本上進行無監(jiān)督訓(xùn)練,針對具體任務(wù),在小的有監(jiān)督數(shù)據(jù)集上做微調(diào),得到包含1.1億參數(shù)的預(yù)訓(xùn)練模型;而2019年2月發(fā)布的GPT-2則是在約40GB文本上進行無監(jiān)督訓(xùn)練,得到具有15億參數(shù)的預(yù)訓(xùn)練模型;而2020年5月公布的GPT-3則是在499Btokens(令牌)的數(shù)據(jù)基礎(chǔ)上訓(xùn)練,得到包含1750億參數(shù)的模型。在不到2年的時間內(nèi),模型參數(shù)從1.1億的規(guī)模增長至1750億,而單次訓(xùn)練GPT-3就需要花費1200萬美元,模型在飛速發(fā)展的同時,帶來的是巨大的算力要求和高成本的代價。
傳統(tǒng)計算與通訊范式的瓶頸
人工智能領(lǐng)域?qū)λ懔Φ男枨篁?qū)動了新算力的發(fā)展。要想謀求更高效率的計算,就需要回到計算和通訊領(lǐng)域最基本的理論和范式。在過去的幾十年間,涌現(xiàn)出了許許多多的定律和體系,而其中有三個定律和體系被視為計算與通訊范式的根本。
第一個是香農(nóng)定律(ShannonTheroy)。香農(nóng)是信息論的奠基者,他引入了信息熵的概念,為數(shù)字通信奠定了基矗其實香農(nóng)定律定義了三個極限,分別為無損壓縮極限E、信道傳輸極限C、有損壓縮極限R(D)。目前,我們已經(jīng)接近這些極限。
第二個是馮諾伊曼架構(gòu)(VonneumannStructure)。在馮諾伊曼架構(gòu)中,計算機由運算器、控制器、存儲器、輸入設(shè)備和輸出設(shè)備5個基本部分組成,具有程序存儲、共享數(shù)據(jù)、順序執(zhí)行的特點。馮諾伊曼架構(gòu)簡單且漂亮,是圖靈機的優(yōu)秀范例,至今仍被廣泛地應(yīng)用。然而,馮諾伊曼架構(gòu)的設(shè)計構(gòu)成了運算器和存儲器間的瓶頸,這對深度學(xué)習(xí)的發(fā)展造成了一定的限制。
信息論的研究方向
第三個是摩爾定律(Moore‘sLaw)。戈登摩爾(GordonMoore)總結(jié)認為,集成電路上可以容納的晶體管數(shù)目大約在18個月左右便會增加一倍。而現(xiàn)在晶體管數(shù)目的增長越來越慢,摩爾定律逐步趨向于飽和階段,而我們對計算能力的需求卻飛速提升,不斷提升的算力需求與芯片技術(shù)發(fā)展趨緩的矛盾日趨顯現(xiàn)。
計算體系與通訊架構(gòu)的革新展望
在過去的60年里,這三個基本理論在計算和通訊領(lǐng)域建立了決定性的基礎(chǔ),然而日趨逼近的極限也使得當(dāng)前AI技術(shù)的發(fā)展逐步接近瓶頸。為了避免技術(shù)的停滯不前,產(chǎn)業(yè)界或許可以從以下三個方面做出一些突破和革新。
首先,對信息重新定義。香農(nóng)于上世紀40年代對信息熵、速率失真函數(shù)R(D)和信道容量C做出了定義,而這些定義是基于比特的基礎(chǔ)實現(xiàn)的。以視頻圖像舉例,過去我們一直采用比特來描述信息;后來我們從數(shù)字的層面使用像素、運動向量、宏塊(macroblock)和區(qū)域(regions)結(jié)合的方式來描述圖像;之后我們上升到從內(nèi)容層面來描述圖像,比如一個身體部位是臉部還是手部等;現(xiàn)在我們對圖像的描述上升到語義層面,比如“是誰”“在做什么動作”“是否在睡覺”“眼睛在看什么”等,這些問題從語義的層面描述了圖像傳達的信息。當(dāng)信息的描述方式發(fā)生變化時,熵的概念也發(fā)生了變化。比方說,過去我們用比特的形式來描述圖像失真現(xiàn)象,而現(xiàn)在我們用生成對抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GAN)生成圖像,用肉眼來看GAN輸入的圖片和生成的圖像幾乎是一致的,但是從比特層面來比較,會發(fā)現(xiàn)二者十分不同。因此,如何從語義、特征和內(nèi)容的角度來定義熵與速率失真函數(shù)是我們未來需要研究的問題。另外,香農(nóng)理論從最開始的點到點通訊,擴展到后來的多用戶信息論。但是在當(dāng)下的互聯(lián)網(wǎng)時代,面對海量的交互信息,部分香農(nóng)理論已不再適用,學(xué)術(shù)界卻沒有提出一個新的完善的理論。過去的信息更多的是人與人之間的傳輸,而現(xiàn)在的信息則更多地面向機器,比如3DPointCloud、3DSS、Genomics、Geometry等,所以我們需要新的算法和新的標(biāo)準(zhǔn)。
計算體系與通訊架構(gòu)的研究方向
第二,我們需要新的計算范式。包括量子計算、類腦計算和生物計算等在內(nèi)的新的計算范式能夠為計算瓶頸提供解決途徑。
第三,我們需要新的計算體系和通訊架構(gòu)突破馮諾伊曼體系架構(gòu)的限制。首先,我們需要新的傳感器、新的數(shù)據(jù)流架構(gòu)和計算模式,以及高速的存儲,這些都與傳統(tǒng)的馮諾伊曼架構(gòu)不同。我們還需要新的通訊架構(gòu),即5G技術(shù)和邊緣計算。5G技術(shù)首次在應(yīng)用層上實現(xiàn)了“三網(wǎng)合一”,比提升傳輸?shù)乃俣雀佑行?。此外?G技術(shù)更好地解決了延時問題并帶來了新的應(yīng)用,如百度的阿波羅項目中有一個服務(wù)叫做“云代駕”,通過5G技術(shù)讓遠程的安全操作員實時了解車輛所處的環(huán)境與狀態(tài),在自動駕駛無法完成的場景下接管車輛,完成遠程協(xié)助。但3G和4G網(wǎng)絡(luò)的延遲使得“云代駕”模式無法成為現(xiàn)實,必須通過5G網(wǎng)絡(luò)來解決延遲問題。很多人認為,當(dāng)前的5G技術(shù)在能耗和覆蓋率等方面還沒有達到預(yù)期,但任何新技術(shù)的發(fā)展都需要時間,相信在未來的三五年后,5G技術(shù)能夠為用戶、工業(yè)和產(chǎn)業(yè)界帶來巨大的變革。
芯片的升級對產(chǎn)業(yè)界的作用是顯著的,近年來國內(nèi)有許多公司在芯片領(lǐng)域有所成就。以百度的昆侖AI芯片為例,第一代昆侖芯片采用14nm先進工藝,2.5D封裝,使用HBM內(nèi)存,可以達到512GB/s的帶寬。而預(yù)計于2021年量產(chǎn)的第二代昆侖芯片,采用7nm先進工藝,性能是第一代昆侖芯片的3倍,同時耗能減少,具備了大規(guī)模片間互聯(lián)的能力,進步顯著。