應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

豆包推出實時語音大模型:號稱中文對話斷崖式領(lǐng)先、情商智商均在線

2025-01-21 08:52 IT之家
關(guān)鍵詞:豆包語音大模型

導(dǎo)讀:豆包實時語音大模型正式推出,并在豆包 App(版本號為 7.2.0 新春版)全量開放。

  從豆包官方獲悉,豆包實時語音大模型正式推出,并在豆包 App(版本號為 7.2.0 新春版)全量開放。

  據(jù)介紹,豆包實時語音大模型實現(xiàn)了語音理解和生成一體化,實現(xiàn)了端到端語音對話。相比傳統(tǒng)級聯(lián)模式在語音表現(xiàn)力、控制力、情緒承接方面表現(xiàn)驚艷,并具備低時延、對話中可隨時打斷等特性,“中文對話斷崖式領(lǐng)先,情商智商雙雙在線”。

  同時,豆包 App 更新實時語音通話功能,面向所有用戶開放。該功能基于最新豆包實時語音大模型。官方表示,豆包中文場景的對話能力更新后在語音真實感和“喜怒哀樂”的情緒表現(xiàn)上近乎達(dá)到“人機難辨”的 AI 交互效果,可以模仿不同聲線,并且在“邏輯思考”和“情緒感知”上有明顯提升。

  據(jù)了解,豆包全新實時語音通話功能可以根據(jù)場景自動對節(jié)奏、兒化音、音量、氣音等細(xì)節(jié)精準(zhǔn)把控,還可跟用戶“說”悄悄話。其掌握了部分方言與英語對話、多角色模仿,甚至部分歌曲演唱能力。

  豆包的全新語音能力基于端到端框架研發(fā),其使用原生方法深度融合語音與文本模態(tài)進(jìn)行統(tǒng)一建模。最終可實現(xiàn)從多模態(tài)輸入直接到多模態(tài)輸出的效果,從而達(dá)到官方所述“賦予 AI 語音對話‘靈魂’”的效果。