技術(shù)
導(dǎo)讀:據(jù)中國(guó)科學(xué)院自動(dòng)化研究所官方微信公眾號(hào)消息,近日,中國(guó)科學(xué)院自動(dòng)化研究所李國(guó)齊、徐波團(tuán)隊(duì)在發(fā)表原創(chuàng)內(nèi)生復(fù)雜性理論系列論文的工作基礎(chǔ)上,與沐曦 MetaX 合作,打造了類腦脈沖大模型“瞬悉 1.0”(SpikingBrain-1.0),在國(guó)產(chǎn)千卡 GPU 算力平臺(tái)上完成全流程訓(xùn)練和推理,實(shí)現(xiàn)了大模型在超長(zhǎng)序列推理上數(shù)量級(jí)的效率和速度提升,展示了構(gòu)建國(guó)產(chǎn)自主可控的新型非 Transformer 大模型架構(gòu)生態(tài)的可行性。
9 月 8 日消息,據(jù)中國(guó)科學(xué)院自動(dòng)化研究所官方微信公眾號(hào)消息,近日,中國(guó)科學(xué)院自動(dòng)化研究所李國(guó)齊、徐波團(tuán)隊(duì)在發(fā)表原創(chuàng)內(nèi)生復(fù)雜性理論系列論文的工作基礎(chǔ)上,與沐曦 MetaX 合作,打造了類腦脈沖大模型“瞬悉 1.0”(SpikingBrain-1.0),在國(guó)產(chǎn)千卡 GPU 算力平臺(tái)上完成全流程訓(xùn)練和推理,實(shí)現(xiàn)了大模型在超長(zhǎng)序列推理上數(shù)量級(jí)的效率和速度提升,展示了構(gòu)建國(guó)產(chǎn)自主可控的新型非 Transformer 大模型架構(gòu)生態(tài)的可行性。研究團(tuán)隊(duì)開(kāi)源了 SpikingBrain-1.0-7B 模型并開(kāi)放 SpikingBrain-1.0-76B 測(cè)試網(wǎng)址,同步公開(kāi)了經(jīng)工業(yè)界大規(guī)模驗(yàn)證的類腦脈沖大模型 SpikingBrain-1.0 中英文技術(shù)報(bào)告。這是全球首款類腦脈沖大模型,實(shí)現(xiàn)了全流程國(guó)產(chǎn)化,標(biāo)志著我國(guó)在類腦計(jì)算與大模型融合創(chuàng)新方面取得重要突破。
從官方介紹獲悉,研發(fā)團(tuán)隊(duì)借鑒大腦神經(jīng)元內(nèi)部復(fù)雜工作機(jī)制提出“基于內(nèi)生復(fù)雜性”的大模型構(gòu)架方式,打造類腦脈沖大模型“瞬悉 1.0”( SpikingBrain-1.0),在理論上建立了脈沖神經(jīng)元內(nèi)生動(dòng)力學(xué)與線性注意力模型之間的聯(lián)系,揭示了現(xiàn)有線性注意力機(jī)制是樹(shù)突計(jì)算的特殊簡(jiǎn)化形式,從而清晰地展示了一條不斷提升模型復(fù)雜度和性能的新型可行路徑。研發(fā)團(tuán)隊(duì)進(jìn)而構(gòu)建并開(kāi)源了基于脈沖神經(jīng)元、具有線性(SpikingBrain-1.0-7B)及混合線性復(fù)雜度(SpikingBrain-1.0-76B,激活參數(shù)量 12B)的新型類腦基礎(chǔ)模型,開(kāi)發(fā)了面向國(guó)產(chǎn) GPU(沐曦 MetaX 曦云 C550)集群高效訓(xùn)練和推理框架、Triton 算子庫(kù)、模型并行策略以及集群通信原語(yǔ)。
李國(guó)齊表示,這項(xiàng)成果不僅是我國(guó)在類腦脈沖大模型架構(gòu)和國(guó)產(chǎn)算力全流程建設(shè)上的重大突破,更為法律、醫(yī)療、科學(xué)模擬等超長(zhǎng)序列應(yīng)用場(chǎng)景提供了更高效的建模工具,也將啟迪下一代神經(jīng)形態(tài)計(jì)算理論和芯片設(shè)計(jì)。