應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊個人注冊登錄

摩爾線程大模型智算加速卡 MTT S4000 發(fā)布,配備 48GB 顯存

2023-12-20 09:21 IT之家
關(guān)鍵詞:摩爾線程

導(dǎo)讀:12 月 19 日,摩爾線程宣布,首個全國產(chǎn)千卡千億模型訓(xùn)練平臺 —— 摩爾線程 KUAE 智算中心揭幕儀式在北京成功舉辦,宣告國內(nèi)首個以國產(chǎn)全功能 GPU 為底座的大規(guī)模算力集群正式落地,大模型智算加速卡 MTT S4000 也同步發(fā)布。

  12 月 19 日,摩爾線程宣布,首個全國產(chǎn)千卡千億模型訓(xùn)練平臺 —— 摩爾線程 KUAE 智算中心揭幕儀式在北京成功舉辦,宣告國內(nèi)首個以國產(chǎn)全功能 GPU 為底座的大規(guī)模算力集群正式落地,大模型智算加速卡 MTT S4000 也同步發(fā)布。

image.png

  摩爾線程大模型智算加速卡 MTT S4000,采用第三代 MUSA 內(nèi)核,單卡支持 48GB 顯存和 768GB/s的顯存帶寬?;谀柧€程自研 MTLink1.0 技術(shù),MTT S4000 可以支持多卡互聯(lián),助力千億大模型的分布式計(jì)算加速。同時,MTT S4000 提供先進(jìn)的圖形渲染能力、視頻編解碼能力和超高清 8K HDR 顯示能力,助力 AI 計(jì)算、圖形渲染、多媒體等綜合應(yīng)用場景的落地。尤為重要的是,借助摩爾線程自研 MUSIFY 開發(fā)工具,MTT S4000 計(jì)算卡可以充分利用現(xiàn)有 CUDA 軟件生態(tài),實(shí)現(xiàn) CUDA 代碼零成本遷移到 MUSA 平臺。

  官方表示,摩爾線程 KUAE 智算中心解決方案以全功能 GPU 為底座,是軟硬一體化的全棧解決方案,包括以 KUAE 計(jì)算集群為核心的基礎(chǔ)設(shè)施、KUAE Platform 集群管理平臺以及 KUAE ModelStudio 模型服務(wù),旨在以一體化交付的方式解決大規(guī)模 GPU 算力的建設(shè)和運(yùn)營管理問題。該方案可實(shí)現(xiàn)開箱即用,大大降低傳統(tǒng)算力建設(shè)、應(yīng)用開發(fā)和運(yùn)維運(yùn)營平臺搭建的時間成本,實(shí)現(xiàn)快速投放市場開展商業(yè)化運(yùn)營。

  摩爾線程 KUAE 支持包括 DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale 在內(nèi)的業(yè)界主流分布式框架,并融合了多種并行算法策略,包括數(shù)據(jù)并行、張量并行、流水線并行和 ZeRO,且針對高效通信計(jì)算并行和 Flash Attention 做了額外優(yōu)化。目前,摩爾線程支持包括 LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各類主流大模型的訓(xùn)練和微調(diào)。基于摩爾線程 KUAE 千卡集群,70B 到 130B 參數(shù)的大模型訓(xùn)練,線性加速比均可達(dá)到 91%,算力利用率基本保持不變。以 2000 億訓(xùn)練數(shù)據(jù)量為例,智源研究院 700 億參數(shù) Aquila2 可在 33 天完成訓(xùn)練;1300 億參數(shù)規(guī)模的模型可在 56 天完成訓(xùn)練。此外,摩爾線程 KUAE 千卡集群支持長時間連續(xù)穩(wěn)定運(yùn)行,支持?jǐn)帱c(diǎn)續(xù)訓(xùn),異步 Checkpoint 少于 2 分鐘。

image.png