應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊個人注冊登錄

從軟件許可到按需服務(wù),車載語音交互的“連通性”革命

2020-02-17 09:29 高工智能汽車

導(dǎo)讀:下一代語音助手將在影響市場競爭格局方面發(fā)揮關(guān)鍵作用。

語音交互方案提供商,也將面臨商業(yè)模式的變革,從過去的單一軟件許可收費(fèi)轉(zhuǎn)型在線服務(wù)提供。連通性是汽車行業(yè)數(shù)字化轉(zhuǎn)型的核心推動者,驅(qū)動汽車即服務(wù)模式落地。當(dāng)涉及到互聯(lián)車輛和更廣泛的互聯(lián)應(yīng)用時,任何對未來的低估都會成為遺憾。

本文轉(zhuǎn)載自高工智能汽車,原作者高工視角;由億歐編輯,僅供行業(yè)內(nèi)人士參考。

在過去的20年時間里,車載語音交互被寄予厚望。

從簡單代替實(shí)體按鈕和開關(guān)來控制車內(nèi)其他功能,到為駕駛員及乘客提供更多交互服務(wù),技術(shù)上的現(xiàn)實(shí)卻是,語音交互并沒有完全按照大家的期望表現(xiàn)出好的體驗。

到底是哪里出了錯?

開啟第一個車載語音的真正大規(guī)模應(yīng)用是2001年推出的寶馬7系iDrive。除了中央旋轉(zhuǎn)控制器,語音識別第一次成為人機(jī)界面的一個關(guān)鍵元素。

不過,iDrive和隨后的其他汽車制造商推出的系統(tǒng)所面臨的挑戰(zhàn)是,語音識別不僅不能減少駕駛員的注意力分散,反而會使情況變得更糟,因為它的效果并不好。

眾所周知,汽車座艙似乎是一個使用語音識別的好地方,但它實(shí)際上是最難實(shí)現(xiàn)語音識別的地方之一。任何一個在嘈雜的環(huán)境中進(jìn)行過交談的人都知道有多難。駕駛汽車時周圍的噪音水平使準(zhǔn)確記錄駕駛員和乘客所說的話變得很有挑戰(zhàn)性,如果系統(tǒng)聽不到這些話,就無法解釋其含義。

然而,在解決了和語音識別相關(guān)的硬件及軟件問題,即使系統(tǒng)能聽到,理解人類的語言變成了另一件更困難的事情。同時,汽車開發(fā)周期長、苛刻的環(huán)境條件,過去車規(guī)級處理器的處理能力也并不強(qiáng)大,直接的結(jié)果就是離線語音識別處理的難度大。

直到2014年,當(dāng)亞馬遜推出一款名為Echo的全新概念智能音箱后,情況發(fā)生了一些變化。

作為一種家庭連接設(shè)備,Echo的特點(diǎn)除了是將智能語音交互技術(shù)植入到傳統(tǒng)音箱中,最關(guān)鍵的是采用了過去類似iDrive和其他系統(tǒng)缺乏的關(guān)鍵功能或者說基礎(chǔ)設(shè)施,就是云。

基于云端的語音服務(wù),利用大型數(shù)據(jù)中心和幾乎無處不在的寬帶連接的強(qiáng)大功能,提供了比設(shè)備側(cè)/車載計算更準(zhǔn)確的單詞識別功能。同時,通過利用用戶過去的查詢歷史、在線服務(wù)的鏈接、車輛的位置和方向、導(dǎo)航路線等數(shù)據(jù),數(shù)字助理現(xiàn)在可以獲得用戶可能想要的關(guān)鍵上下文信息。

更重要的是,數(shù)據(jù)中心服務(wù)可以越來越多地從多單詞語句中獲得語義?;谠频南到y(tǒng)現(xiàn)在可以識別幾乎所有的單詞,而不是識別幾十個特定的單詞或短語,從單詞的上下文更接近于理解用戶的意圖。

盡管,目前絕大多數(shù)的語音公司都還沒有能力進(jìn)行真正的自然語言處理,但距離越來越近。所有這一切之所以成為可能,是因為汽車內(nèi)置的更快的無線通信、更強(qiáng)大高效的計算和更好的麥克風(fēng)等硬件配置。

類似陣列麥克風(fēng),現(xiàn)在也被越多越多應(yīng)用到汽車中,并與改進(jìn)的噪音處理(比如降噪)相結(jié)合,以更好地捕捉司機(jī)和乘客的聲音。陣列麥克風(fēng)甚至可以區(qū)分誰在說話,并根據(jù)需要區(qū)分優(yōu)先次序。

不過,盡管無線運(yùn)營商喜歡“吹噓”自己的通訊能力覆蓋范圍,但它遠(yuǎn)未達(dá)到100%的完美,尤其是在偏遠(yuǎn)地區(qū)以及人群密集地區(qū)。因此,仍然需要車載系統(tǒng)提供一些本地處理算法作為備份。

隨著大多數(shù)新車的配置越來越高,制造商要想讓自己與眾不同變得越來越迫切。目前,車載離線語音識別市場也越來越飽和,銷售增長將放緩。

而基于云端的數(shù)字語音助手為制造商提供了一種改善用戶體驗的方式,這仍然可以成為未來車載語音產(chǎn)品的一大特色,并根據(jù)需求的變化為新的服務(wù)和收入機(jī)會提供了一個平臺。

這樣的變化,也可以從一些汽車語音供應(yīng)商身上看到。以全球車載語音廠商Cerence(Nuance拆分獨(dú)立)為例,去年四季度軟件許可收入4080萬美元(下降7.4%);連接服務(wù)收入2300萬美元(上升33.4%)。

從軟件許可收入的下滑,到連接服務(wù)收入的增長,背后是汽車變得越來越像智能手機(jī)。傳統(tǒng)離線語音識別的用戶體驗,正在被得到逐步改善。按照Cerence的預(yù)測,云服務(wù)將汽車真正成為“輪子上的智能手機(jī)”。目前,該公司每年的汽車語音收入在3億美元左右。

比如,今年初,Cerence宣布正在與微軟合作,將Cerence產(chǎn)品與微軟連接車輛平臺(MCVP)集成,通過語音平臺和操作系統(tǒng)的互操作性在汽車上提供無縫連接的體驗。

同時,各種形式的語音助手也為供應(yīng)商提供了更多的獲利機(jī)會。

Cerence在年初宣布推出ARK (AI參考工具包),這是一種全新的全鑰匙解決方案,可以使汽車制造商快速開發(fā)、部署和管理語音助手。

通過ARK,Cerence 捆綁了核心語音助手功能,包括喚醒詞、語音生物識別、自動語音識別、自然語言理解和文本到語音,并以一種開放、靈活和快速的架構(gòu)交付。

按照計劃,Cerence ARK將于今年晚些時候向中國市場客戶進(jìn)行交付,提供了三個版本級別—精簡版、標(biāo)準(zhǔn)版和高級版,并附帶三個關(guān)鍵組件—ARK Edge、ARK Client和ARK Cloud。

而云端能力對于車載語音的助推作用在于,可以非常容易地擴(kuò)展處理能力。對于汽車制造商來說,車端計算能力的部署會有一定的限制。短期來說,一旦用戶購買了一輛帶有語音交互功能的車,基本上大多數(shù)車型的硬件能力是不太會升級的。

云計算的一個關(guān)鍵優(yōu)勢就是,可以隨時滿足各種新增的需求。而5G的商業(yè)化,無疑可以將語音識別安全體驗提升到一個全新的水平,從而改變目前4G通信存在的一些弊端。

事實(shí)上,下一代語音助手將成為車載交互的下一個戰(zhàn)場,提供云處理(尤其是混合云)的新一代互聯(lián)語音助手方案正迅速被各大汽車制造商采用。

比如,混合解決方案就是將本地芯片處理和云處理結(jié)合起來的解決方案,將把車載處理的安全性、速度和穩(wěn)定性與云解決方案近乎無限的使用可能性結(jié)合起來,低延遲、高性能的5G移動網(wǎng)絡(luò)很可能成為連接的主干。

車內(nèi)語音技術(shù)在過去幾年里已經(jīng)取得了巨大的進(jìn)步,但它還只是剛剛起步。

一些行業(yè)人士表示,同時具備在線和離線車載語音功能將成為未來幾年的趨勢。此外,OTA滲透率的提升,也進(jìn)一步強(qiáng)化了嵌入式語音識別技術(shù)的能力迭代。

《高工智能汽車》認(rèn)為,下一代語音助手將在影響市場競爭格局方面發(fā)揮關(guān)鍵作用。而作為語音交互方案提供商,也將面臨商業(yè)模式的變革,從過去的單一軟件許可收費(fèi)轉(zhuǎn)型在線服務(wù)提供,比如服務(wù)的按次收費(fèi)模式。

毫無疑問,連通性是汽車行業(yè)數(shù)字化轉(zhuǎn)型的核心推動者,驅(qū)動汽車即服務(wù)模式落地。當(dāng)涉及到互聯(lián)車輛和更廣泛的互聯(lián)應(yīng)用時,任何對未來的低估都會成為遺憾。