技術(shù)
導(dǎo)讀:在算法不斷演化的時(shí)代,架構(gòu)的“適配力”遠(yuǎn)比一時(shí)的TOPS值更重要。
作者:北京華興萬(wàn)邦管理咨詢有限公司 翔煜 商瑞
隨著大模型在不斷演進(jìn)的同時(shí)將推理應(yīng)用大規(guī)模推向邊緣和端點(diǎn)設(shè)備,以及物聯(lián)網(wǎng)智化、具身智能、AI智能體(AI Agent)和物理AI等新的AI應(yīng)用場(chǎng)景和模式的快速涌現(xiàn),AI賦能設(shè)備的主控芯片設(shè)計(jì)師正面臨著全新的挑戰(zhàn)。尤其是對(duì)于邊緣和端點(diǎn)設(shè)備,它們既可能成為大模型的承載設(shè)備,也可能是用智能去為應(yīng)用提供更好的核心功能,新的產(chǎn)品定義方向使主芯片架構(gòu)師不得不去思考,其芯片在如何應(yīng)對(duì)大模型快速演進(jìn)的同時(shí),還能實(shí)現(xiàn)用智能手段賦能傳統(tǒng)應(yīng)用和實(shí)現(xiàn)新興功能。
因此,在追求極致性能、功耗和面積(PPA)的模式之外,架構(gòu)師們需要富有前瞻性地去選擇高性能、高靈活性、可升級(jí)和開(kāi)發(fā)者(生態(tài))友好的架構(gòu)。我們不妨先回顧AI發(fā)展的歷程,從感知AI到生成式AI,再到智能體AI和物理AI,其應(yīng)用場(chǎng)景不斷拓展。在感知AI階段,Al技術(shù)在語(yǔ)音識(shí)別、深度推薦系統(tǒng)和醫(yī)學(xué)影像等領(lǐng)域取得顯著進(jìn)展;生成式AI在數(shù)字營(yíng)銷(xiāo)和內(nèi)容創(chuàng)作方面發(fā)揮了重要作用;智能體AI為編程、客戶服務(wù)、患者護(hù)理提供助力;物理AI推動(dòng)了自動(dòng)駕駛汽車(chē)和通用機(jī)器人發(fā)展。
伴隨著AI技術(shù)的發(fā)展,在傳統(tǒng)的CPU、GPU和FPGA等計(jì)算技術(shù)之外,諸如TPU、NPU 和DPU等專門(mén)針對(duì)特定算法或者模型的新型硬件數(shù)據(jù)處理加速器也開(kāi)始出現(xiàn),它們帶來(lái)高效率因而在許多場(chǎng)景中得到了應(yīng)用。與此同時(shí),AI技術(shù)不斷向新的場(chǎng)景和應(yīng)用廣泛滲透,使得面向特定模型和場(chǎng)景的NPU等架構(gòu)難以應(yīng)對(duì)模型的變化和場(chǎng)景的多樣化,從而使傳統(tǒng)的 靈活性更高的CPU和GPU架構(gòu)依舊在計(jì)算領(lǐng)域占據(jù)重要地位。
但是,AI技術(shù)的進(jìn)步和新場(chǎng)景的出現(xiàn),正在迫使半導(dǎo)體知識(shí)產(chǎn)權(quán)(IP)提供商和芯片設(shè)計(jì)公司快速做出變化,無(wú)論是采用傳統(tǒng)架構(gòu)的廠商,還是新的xPU提供商都需要尊重產(chǎn)業(yè)規(guī)律。華興萬(wàn)邦亦認(rèn)為,從技術(shù)經(jīng)濟(jì)學(xué)和企業(yè)實(shí)際經(jīng)營(yíng)來(lái)看,高額的研發(fā)費(fèi)用和市場(chǎng)營(yíng)銷(xiāo)費(fèi)用是多數(shù)芯片設(shè)計(jì)企業(yè)面臨的最重要費(fèi)用,而靈活可擴(kuò)展的架構(gòu)可以覆蓋更廣的市場(chǎng)并可以實(shí)現(xiàn)更長(zhǎng)的產(chǎn)品生命周期,它們是攤銷(xiāo)這些費(fèi)用以提升盈利能力的重要手段。
架構(gòu)創(chuàng)新迫在眉睫
Imagination Technologies中國(guó)業(yè)務(wù)發(fā)展負(fù)責(zé)人黃音在慕尼黑電子展AI技術(shù)創(chuàng)新論壇演講中分析道:“當(dāng)前主芯片設(shè)計(jì)不僅需要芯片企業(yè)投入大量研發(fā)資源,更需要協(xié)調(diào)生態(tài)合作伙伴的技術(shù)路線。面對(duì)AI算法快速迭代的挑戰(zhàn),行業(yè)在探索創(chuàng)新架構(gòu)的同時(shí),仍需重視經(jīng)過(guò)長(zhǎng)期驗(yàn)證的基礎(chǔ)計(jì)算架構(gòu)價(jià)值。以GPU為例,其架構(gòu)在保持高并行計(jì)算優(yōu)勢(shì)的同時(shí),新一代設(shè)計(jì)正通過(guò)模塊化擴(kuò)展能力(如可配置Shader集群、彈性內(nèi)存子系統(tǒng))來(lái)適應(yīng)不同AI工作負(fù)載需求。作為專注圖形計(jì)算領(lǐng)域的IP廠商,Imagination觀察到,理想的AI加速架構(gòu)需要在三個(gè)維度取得平衡:支持細(xì)粒度并行的計(jì)算單元設(shè)計(jì)、滿足算法動(dòng)態(tài)調(diào)整的可配置性,以及維持開(kāi)發(fā)工具鏈的持續(xù)兼容性。”
“擴(kuò)展能力是Imagination GPU開(kāi)發(fā)演進(jìn)的方向:在具備強(qiáng)大的渲染能力的同時(shí),融合AI并行計(jì)算能力,在邊緣AI的場(chǎng)景下能提供靈活又高效的算力。所以,Imagination將幫助芯片設(shè)計(jì)人員發(fā)現(xiàn)真正的破局點(diǎn),幫助他們?nèi)?gòu)建一個(gè)可以持續(xù)適配模型和算法演進(jìn)、以及支持新興應(yīng)用的架構(gòu)平臺(tái)——而不是為某個(gè)模型做一次性的‘專用硬件定制’,從而避免硬件(處理器)總是費(fèi)力費(fèi)錢(qián)跟著算法跑的問(wèn)題。”黃音補(bǔ)充道。
Imagination正在幫助客戶導(dǎo)入更加靈活的架構(gòu)。以該公司不久前發(fā)布的Imagination DXTP GPU IP為例,它采用了先進(jìn)的平衡架構(gòu),增加了緩存和系統(tǒng)級(jí)帶寬,實(shí)現(xiàn)了更高的持續(xù)性能,幾何吞吐量提高50%,不僅能夠輕松同時(shí)處理圖形和計(jì)算任務(wù),而且其功率效率還較其前序產(chǎn)品提升了20%,為邊緣AI提供了理想的GPU平臺(tái)。DXTP GPU已經(jīng)被全球知名科技公司采用,用于對(duì)AI 多數(shù)據(jù)類型處理、計(jì)算任務(wù)加速和本地內(nèi)存的支持。
三個(gè)落地是成功的關(guān)鍵
當(dāng)然,對(duì)于芯片設(shè)計(jì)師而言,這需要做到三個(gè)必須“落地”,即模型算法落地、垂直功能落地和開(kāi)放生態(tài)落地。針對(duì)模型算法落地,Imagination的突破點(diǎn)是堅(jiān)持構(gòu)建一個(gè)通用可編程的并行架構(gòu)平臺(tái),并通過(guò)開(kāi)放的編譯器和推理后端(backend),支持客戶軟硬件協(xié)同設(shè)計(jì)和提供適配路徑,幫助其客戶把諸如Transformer、Diffusion類模型和前沿算法快速落地到GPU上。為此該公司將幫助客戶認(rèn)識(shí)到在算法不斷演化的時(shí)代,架構(gòu)的“適配力”遠(yuǎn)比一時(shí)的TOPS值更重要。
在垂直功能落地方面,Imagination在移動(dòng)、汽車(chē)、云和桌面等領(lǐng)域深耕了數(shù)十年,積累了豐富的經(jīng)驗(yàn)和許多創(chuàng)新的支撐性技術(shù),可以幫助客戶去避開(kāi)其中的潛在風(fēng)險(xiǎn)和快速在領(lǐng)域內(nèi)創(chuàng)造優(yōu)勢(shì),這可以從該公司的D系列GPU IP的產(chǎn)品功能創(chuàng)新上可以看出其垂直領(lǐng)域功能落地能力。例如,DXT GPU 是Imagination面向移動(dòng)應(yīng)用、高端游戲和專業(yè)圖形設(shè)計(jì)等應(yīng)用推出的新一代GPU IP,它不僅率先在移動(dòng)平臺(tái)上提供了可擴(kuò)展的光線追蹤功能,還有2D雙速率紋理映射等多項(xiàng)可以提升處理速度和優(yōu)化內(nèi)存帶寬的技術(shù)。
為了幫助桌面和數(shù)據(jù)中心客戶實(shí)現(xiàn)高性能的云端GPU創(chuàng)新解決方案,Imagination推出了DXD GPU IP,首次將Imagination的API覆蓋擴(kuò)展至DirectX,這一舉措顯著提升了DXD與Windows平臺(tái)上的應(yīng)用程序和游戲的兼容性。同時(shí),Imagination 的硬件虛擬化技術(shù) HyperLane支持在單個(gè)GPU上安全且獨(dú)立地運(yùn)行多個(gè)操作系統(tǒng),極大地提升了服務(wù)器的使用效率,降低了云游戲的運(yùn)營(yíng)成本,并為云游戲行業(yè)的發(fā)展帶來(lái)了創(chuàng)新的運(yùn)營(yíng)模式。
Imagination為汽車(chē)智駕芯片提供的專用IP是該公司支持芯片設(shè)計(jì)企業(yè)垂直功能落地的又一個(gè)典范,血的教訓(xùn)換來(lái)了更加嚴(yán)格的安全法規(guī),使智駕芯片設(shè)計(jì)公司在算力、生態(tài)和生命周期之外,必須去認(rèn)真去考慮功能安全性。為了幫助芯片設(shè)計(jì)企業(yè)滿足全球汽車(chē)智能化需求,Imagination推出了DXS系列GPU,該系列IP不僅為智能駕駛艙和先進(jìn)駕駛輔助(ADAS)等應(yīng)用所需SoC帶來(lái)匹配的算力,而且專為諸如汽車(chē)處理器等對(duì)功能安全性要求極為嚴(yán)苛的應(yīng)用,開(kāi)發(fā)了結(jié)合GPU的計(jì)算模式特點(diǎn)并大幅降低成本的分布式功能安全機(jī)制(DSM)并通過(guò)了ASIL-B認(rèn)證。這為汽車(chē)和工業(yè)等越來(lái)越多需要GPU的圖形處理能力和計(jì)算能力的電子系統(tǒng)帶來(lái)了巨大的創(chuàng)新。
Imagination在支持客戶實(shí)現(xiàn)產(chǎn)業(yè)生態(tài)落地方面也同樣頗費(fèi)心機(jī),其GPU IP全面支持OpenCL、SYCL、Vulkan Compute等開(kāi)放標(biāo)準(zhǔn),與PyTorch、TensorFlow等主流框架完美兼容。如Imagination通過(guò)與安卓生態(tài)系統(tǒng)合作,優(yōu)化對(duì)LiteRT的支持,為開(kāi)發(fā)者提供豐富工具和示例,便于開(kāi)發(fā)高性能AI應(yīng)用,充分展現(xiàn)了其GPU架構(gòu)的適配能力。這種開(kāi)放生態(tài)簡(jiǎn)化了新硬件與設(shè)備的集成流程,避免供應(yīng)商鎖定問(wèn)題,使客戶能在不同平臺(tái)輕松部署。通過(guò)整合多方資源,Imagination可幫助客戶實(shí)現(xiàn)協(xié)同優(yōu)化,提升資源利用率和執(zhí)行效率,鞏固了其在GPU市場(chǎng)的領(lǐng)先地位,為企業(yè)應(yīng)對(duì)AI算法和產(chǎn)品快速迭代提供堅(jiān)實(shí)支持。
總結(jié)與展望
大模型的下沉、算法創(chuàng)新和邊緣及端側(cè)AI的崛起為基于 GPU的主控芯片帶來(lái)了新的發(fā)展契機(jī),在AI一體機(jī)、新物聯(lián)網(wǎng)、智能安防和自動(dòng)駕駛等領(lǐng)域已經(jīng)出現(xiàn)了巨大的需求,這些設(shè)備對(duì)高性能的圖形處理和AI推理同時(shí)都有越來(lái)越多的需求,因此更靈活和可擴(kuò)展的架構(gòu)可以使芯片設(shè)計(jì)公司的產(chǎn)品覆蓋更廣泛的市場(chǎng)領(lǐng)域,同時(shí)可以擁有更長(zhǎng)的產(chǎn)品生命周期,也就有了更高的潛在盈利能力。