應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

我國(guó)超大規(guī)模智算集群管控達(dá)領(lǐng)先水平:中國(guó)移動(dòng)實(shí)現(xiàn)智算萬(wàn)卡池在長(zhǎng)周期訓(xùn)練場(chǎng)景持續(xù)穩(wěn)定運(yùn)行

2025-10-15 09:09 IT之家
關(guān)鍵詞:智算集群

導(dǎo)讀:據(jù)人民郵電報(bào)報(bào)道,中國(guó)移動(dòng)近期實(shí)現(xiàn)了智算萬(wàn)卡池在長(zhǎng)周期訓(xùn)練場(chǎng)景下持續(xù)穩(wěn)定運(yùn)行,訓(xùn)練穩(wěn)定性達(dá)到行業(yè)領(lǐng)先水平,標(biāo)志著我國(guó)在超大規(guī)模智算集群管控領(lǐng)域已具備領(lǐng)先水平。

  10 月 14 日消息,據(jù)人民郵電報(bào)報(bào)道,中國(guó)移動(dòng)近期實(shí)現(xiàn)了智算萬(wàn)卡池在長(zhǎng)周期訓(xùn)練場(chǎng)景下持續(xù)穩(wěn)定運(yùn)行,訓(xùn)練穩(wěn)定性達(dá)到行業(yè)領(lǐng)先水平,標(biāo)志著我國(guó)在超大規(guī)模智算集群管控領(lǐng)域已具備領(lǐng)先水平,解決了超大規(guī)模算力集群調(diào)度、高可靠通信保障、故障智能診斷與快速自愈等業(yè)界難題。

  據(jù)介紹,人工智能技術(shù)正迎來(lái)爆發(fā)式的發(fā)展,大模型參數(shù)規(guī)模正向萬(wàn)億級(jí)升級(jí),因此智算基礎(chǔ)設(shè)施的算力密度、穩(wěn)定性和協(xié)同效率面臨挑戰(zhàn),萬(wàn)卡級(jí)規(guī)模協(xié)同訓(xùn)練場(chǎng)景是全球普遍面臨智算集群穩(wěn)定性問(wèn)題。

  中國(guó)移動(dòng)基于哈爾濱數(shù)據(jù)中心智算集群,主導(dǎo)研發(fā)全調(diào)度以太網(wǎng)(GSE)技術(shù)體系,打造慢卡慢網(wǎng)絡(luò)風(fēng)險(xiǎn)識(shí)別、斷點(diǎn)續(xù)訓(xùn)、AI 運(yùn)維智能體等新技術(shù),攻克了超大規(guī)模智算基礎(chǔ)設(shè)施運(yùn)行的關(guān)鍵技術(shù)難題。在關(guān)鍵技術(shù)突破層面,團(tuán)隊(duì)重點(diǎn)攻關(guān)三大核心難題:

  創(chuàng)新慢卡慢網(wǎng)絡(luò)風(fēng)險(xiǎn)識(shí)別技術(shù),實(shí)現(xiàn)典型場(chǎng)景故障全部感知、提升診斷準(zhǔn)確率

  研發(fā)斷點(diǎn)續(xù)訓(xùn)機(jī)制,實(shí)現(xiàn)故障節(jié)點(diǎn)自動(dòng)隔離后訓(xùn)練狀態(tài)的分鐘級(jí)回滾,硬件故障導(dǎo)致的斷訓(xùn)量下降 50%

  引入 AI 運(yùn)維智能體,通過(guò)多層架構(gòu)日志分析系統(tǒng)實(shí)現(xiàn)分鐘級(jí)故障定界,覆蓋 25 類(lèi)軟硬件故障解決方案,將故障處理時(shí)長(zhǎng)從數(shù)天級(jí)降至分鐘級(jí)

  從人民郵電報(bào)報(bào)道獲悉,長(zhǎng)穩(wěn)運(yùn)行能力直接將大模型訓(xùn)練周期縮短近三分之一,資源利用率近 100%,為 AI 技術(shù)工業(yè)化量產(chǎn)奠定基礎(chǔ),可支撐自動(dòng)駕駛、生物醫(yī)藥、新材料研發(fā)等前沿領(lǐng)域技術(shù)進(jìn)步。此外,中國(guó)移動(dòng)還在黑龍江、廣東打造了智算運(yùn)維樣板間。

  值得一提的是,在今年 10 月 11 日的 2025 中國(guó)移動(dòng)全球合作伙伴大會(huì)主論壇上,中國(guó)移動(dòng)宣布升級(jí)“AI+”行動(dòng)計(jì)劃,明確到 2028 年底,中國(guó)移動(dòng)將持續(xù)加大對(duì)人工智能領(lǐng)域的投入力度,總體投入翻一番,建成國(guó)內(nèi)規(guī)模最大、技術(shù)領(lǐng)先的智算基礎(chǔ)設(shè)施,探索十萬(wàn)卡智算集群建設(shè),全國(guó)產(chǎn)智能算力規(guī)模突破 100 EFLOPS。