技術(shù)
導(dǎo)讀:語音識(shí)別屬于感知智能,而讓機(jī)器從簡單的識(shí)別語音到理解語音,則上升到了認(rèn)知智能層面,機(jī)器的自然語言理解能力如何,也成為了其是否有智慧的標(biāo)志。
【編者按】語音識(shí)別是人機(jī)交互的基礎(chǔ)。目前市面上的機(jī)器語音識(shí)別錯(cuò)誤率超過15%甚至30%,一些公司宣傳的機(jī)器識(shí)別準(zhǔn)確率過高,真正的語音識(shí)別需要結(jié)合具體場景,解決遠(yuǎn)場語音識(shí)別、數(shù)據(jù)獲取等問題。
曾轟動(dòng)一時(shí)的電影《她》,講述了男主人公與人工智能虛擬助手相愛的故事,這個(gè)人工智能對話系統(tǒng)能夠同時(shí)與數(shù)百人進(jìn)行對話?,F(xiàn)實(shí)中,蘋果Siri能夠有目的地模仿人類,并擁有了不同的人類風(fēng)格,像Siri這類智能軟件助手正在與數(shù)以億計(jì)的人類用戶互動(dòng)。
“語音識(shí)別現(xiàn)在已經(jīng)有很多的產(chǎn)品,包括維語到漢語的翻譯等等。人工智能目前落地最成功的就是語音識(shí)別技術(shù)?!敝锌圃鹤詣?dòng)化研究所所長徐波告訴《瞭望》新聞周刊記者,要讓機(jī)器理解人的語言,還面臨很多挑戰(zhàn)。
人機(jī)交互的基礎(chǔ)
近日,全國首家互聯(lián)網(wǎng)法院揭牌,案件庭審記錄由語音輸入系統(tǒng)即時(shí)完成?!盎ヂ?lián)網(wǎng)法院是遠(yuǎn)程的,原告、被告、法官不在同一個(gè)地方,將庭審麥克風(fēng)接入語音識(shí)別的云端,就能夠?qū)崟r(shí)生成速記。它使用的就是阿里云語音在線識(shí)別技術(shù)。”阿里巴巴iDST智能語音團(tuán)隊(duì)負(fù)責(zé)人鄢志杰告訴《瞭望》新聞周刊記者。
語音識(shí)別是人機(jī)交互的基礎(chǔ),主要解決讓機(jī)器聽清楚人說什么的難題。早在1970年代,IBM沃森實(shí)驗(yàn)室的弗雷德里克·賈里尼克(Frederick Jelinek)就提出了語音識(shí)別框架:聲學(xué)模型和語言模型。
語音識(shí)別取得的重大突破,就在于引入了深度神經(jīng)網(wǎng)絡(luò)技術(shù)?!吧疃壬窠?jīng)網(wǎng)絡(luò)的方法,是通過大量的語音數(shù)據(jù),訓(xùn)練出高精度的聲學(xué)模型和語言模型,從而提升識(shí)別率?!崩顺奔瘓F(tuán)人工智能與高性能計(jì)算總經(jīng)理劉軍告訴記者,淺層神經(jīng)網(wǎng)絡(luò)方法,是提取語音的特征,識(shí)別率比較低。
“教會(huì)機(jī)器聽懂人話的過程,就是通過深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練聲學(xué)模型和語言模型的過程?!笨拼笥嶏w股份有限公司(簡稱科大訊飛)工程師丁瑞告訴記者,聲學(xué)模型訓(xùn)練是教會(huì)機(jī)器哪個(gè)字詞發(fā)什么音、該怎么連在一起讀,有點(diǎn)像我們小學(xué)時(shí)候跟著老師讀拼音。而語言模型訓(xùn)練則要教會(huì)機(jī)器什么樣的命令或文字組合是合理的、更常見的。
在完成模型訓(xùn)練后,需要將其送入語音識(shí)別系統(tǒng)的解碼引擎?!敖獯a引擎的工作是在一個(gè)巨大的網(wǎng)絡(luò)里進(jìn)行搜索,這個(gè)網(wǎng)絡(luò)由數(shù)億節(jié)點(diǎn)及弧組成,并且里邊已經(jīng)糅合了訓(xùn)練好的聲學(xué)模型和語言模型信息,搜索出來的最優(yōu)路徑上所攜帶的信息就是對應(yīng)的語音識(shí)別結(jié)果了?!倍∪鸾榻B,解碼引擎的運(yùn)算效率至關(guān)重要,直接影響到用戶體驗(yàn)。目前,科大訊飛的解碼引擎可以在用戶說完話40毫秒之內(nèi)給出結(jié)果。
“一般的深度學(xué)習(xí)算法只能看到上下文的一點(diǎn)點(diǎn),我們試驗(yàn)最成功的是BLSTM算法(雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò))。通常一句話講完才能出識(shí)別結(jié)果,但BLSTM算法理論上可以看到無窮遠(yuǎn)的上下文,可以更好地理解人類的語言?!臂持窘苷f,BLSTM算法是深度學(xué)習(xí)中的一種,對單位時(shí)間內(nèi)的計(jì)算量要求很高,他們研發(fā)出的LC—Blstm系統(tǒng),將語音解碼速率提升了三倍,并在業(yè)界最先大規(guī)模上線了基于這一技術(shù)的語音識(shí)別系統(tǒng)。
提高識(shí)別準(zhǔn)確率有多難
目前,國外一些大公司提出,他們研發(fā)的語言識(shí)別系統(tǒng)已經(jīng)十分接近人類聽力水平。國內(nèi)也有多家公司提出,他們的語音識(shí)別系統(tǒng)達(dá)到90%以上的正確率。
鄢志杰認(rèn)為,脫離了應(yīng)用場景講識(shí)別準(zhǔn)確率并不現(xiàn)實(shí)?!氨热缫粋€(gè)IT方面的會(huì)議,會(huì)場上演講嘉賓的語音識(shí)別準(zhǔn)確率基本能達(dá)到95%,但如果突然邀請一個(gè)醫(yī)療領(lǐng)域的講演者,就很難達(dá)到同樣高的識(shí)別率,因?yàn)楝F(xiàn)有模型在醫(yī)療領(lǐng)域的知識(shí)積累不夠?!?/p>
“正常人際交流情況下,機(jī)器語音識(shí)別錯(cuò)誤率超過15%甚至30%,而一些公司宣傳的機(jī)器識(shí)別準(zhǔn)確率過高,速記員都達(dá)不到這一水平?!臂持窘苷J(rèn)為,這樣的宣傳會(huì)讓公眾誤認(rèn)為語音識(shí)別問題得到了完全解決。
“語音識(shí)別要進(jìn)入到機(jī)器語音識(shí)別錯(cuò)誤率超過15%甚至30%,而一些公司宣傳的機(jī)器識(shí)別準(zhǔn)確率過高,速記員都達(dá)不到這一水平,還有很多相關(guān)的工作需要去完成,不能單靠深度神經(jīng)網(wǎng)絡(luò)的方法來實(shí)現(xiàn)。”劉軍說,語音識(shí)別準(zhǔn)確率涉及多方面原因,例如遠(yuǎn)場精確識(shí)別就是業(yè)界難題。
遠(yuǎn)場語音識(shí)別基本采用麥克風(fēng)陣列方案,通過波束成形和精準(zhǔn)定位的技術(shù)方案,解決遠(yuǎn)場拾音、噪聲、混響等問題?!澳壳翱拼笥嶏w的語音識(shí)別距離已經(jīng)達(dá)到5米,同時(shí)有國際領(lǐng)先的回音消除技術(shù),消除量可以達(dá)到50db?!倍∪鹫f。
受訪專家認(rèn)為,應(yīng)用麥克風(fēng)陣列做定位和聚焦可解決遠(yuǎn)場識(shí)別問題,識(shí)別率較之前有了大幅提高。例如在落下車窗的快速行駛汽車中,可成功喚醒車載語音識(shí)別功能。
“現(xiàn)在有很多大量近講的數(shù)據(jù),例如手機(jī)、錄音棚中的數(shù)據(jù),將其放在一個(gè)房間內(nèi)播放,就能測得房間的沖擊響應(yīng),可以模擬遠(yuǎn)場數(shù)據(jù)。由此建立代表近講信號與遠(yuǎn)場信號的不同模型?!臂持窘芙榻B道。
受訪專家表示,遠(yuǎn)場識(shí)別在一些場景中的應(yīng)用并不理想,例如機(jī)場、火車站、大型會(huì)場等環(huán)境嘈雜的地方。徐波告訴記者,現(xiàn)在用的麥克風(fēng)陣列,能辨別人說話的方位,但如果多個(gè)聲源在相近的方位還是難以識(shí)別。
語音識(shí)別應(yīng)用推廣的另一短板表現(xiàn)在場景數(shù)據(jù)的獲取。場景是用戶群體、語言風(fēng)格、語音信道、使用環(huán)境等綜合性的描述?!爸形恼Z法的隨意性比較大,還有場景中的方言因素,解決這一問題的方法主要是靠數(shù)據(jù)訓(xùn)練模型,我們需要一個(gè)很大的數(shù)據(jù)庫?!毙觳ㄕf。
“數(shù)據(jù)獲取的成本非常高,需要收集全國各地的各種口音數(shù)據(jù),并使用人工把發(fā)音和文字一句一句地標(biāo)注對應(yīng)好,變成所謂的熟數(shù)據(jù),才能交由機(jī)器學(xué)習(xí)。我們已經(jīng)做了幾萬小時(shí)的這種聲音?!毙觳ㄌ岬剑媚壳暗姆椒?,機(jī)器有多少智能,背后一定賦予了多少人力投入。
劉軍認(rèn)為,雖然現(xiàn)在使用互聯(lián)網(wǎng)服務(wù),數(shù)據(jù)很容易上傳到云端,標(biāo)注后就可以用,但目前還沒有很好的方法替代“人工標(biāo)注”這一工作。
“數(shù)據(jù)是燃料,云計(jì)算背景下,怎樣做大規(guī)模低成本的定制化語音服務(wù)非常重要,如果成本不能控制,生意就做不下去?!臂持窘苷f,為節(jié)省成本,阿里iDST采用了數(shù)據(jù)模型自適應(yīng)的一系列算法。例如為電話客服場景做語音識(shí)別訓(xùn)練模型就需要用大量的數(shù)據(jù),但這個(gè)模型就可以遷移到保險(xiǎn)公司客服的模型中去,而不需要用大量數(shù)據(jù)重新訓(xùn)練保險(xiǎn)公司的客服模型。
“自然語言理解”難題待解
“在計(jì)算機(jī)的世界里,理解對話系統(tǒng)不再是什么古怪的創(chuàng)新,而是一種逐漸成為主流的交互方式。”《紐約時(shí)報(bào)》高級科技記者、普利策獎(jiǎng)得主約翰·馬爾科夫(John Markoff)在其著作《與機(jī)器人共舞》中提出。
與機(jī)器對話是人與計(jì)算機(jī)之間的雙向信息交換,即人傳達(dá)給機(jī)器一個(gè)信息,機(jī)器會(huì)反饋給人一個(gè)信息。語音的交互已經(jīng)廣泛應(yīng)用于智能硬件、智能家居、智能機(jī)器人等領(lǐng)域。隨著亞馬遜打開智能音箱的市場,各巨頭公司爭相逐鹿,打響了“百箱大戰(zhàn)”,如谷歌推出了Google Home、蘋果上線了HomePod等。國內(nèi)來看,科大訊飛推出了“叮咚智能音箱”,阿里發(fā)布了智能音箱“天貓精靈X1”等。
受訪專家認(rèn)為,語音識(shí)別屬于感知智能,而讓機(jī)器從簡單的識(shí)別語音到理解語音,則上升到了認(rèn)知智能層面,機(jī)器的自然語言理解能力如何,也成為了其是否有智慧的標(biāo)志。
在機(jī)器理解人的語言方面,專家的意見非常一致,即自然語言理解是人工智能的難點(diǎn)。機(jī)器對語言理解本身的準(zhǔn)確率非常低,并不是非常聰明。但在馬爾科夫看來,人機(jī)交互是機(jī)器的終極智慧。
“全世界基于自然語言理解的人機(jī)對話領(lǐng)域,還沒有萬流歸宗的方法論,在工業(yè)界無法形成應(yīng)用。”鄢志杰說,相比之下,基于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的語音識(shí)別技術(shù)已經(jīng)形成固定的流派,只是互相之間用的聲學(xué)模型、語言模型各有特色。
“語言的理解非常困難,需要知識(shí)的儲(chǔ)備,而機(jī)器缺乏常識(shí)?!毙觳ㄅe例說,“張三吃食堂”、“能穿多少穿多少”。這樣的句子機(jī)器理解不了?!耙?yàn)樗宋覀兩钪械暮芏喑WR(shí)。比如說‘張三吃食堂’,實(shí)際上是說張三在食堂吃飯,不是把食堂吃下去。不同季節(jié)說‘能穿多少穿多少’意思也是不一樣的:在夏天說,意思就是太熱了盡量少穿;在冬天說,意思則是多穿點(diǎn)別著涼?!毙觳ǜ嬖V記者,常識(shí)是我們從小到大、通過與現(xiàn)實(shí)物理世界不斷交互感知和學(xué)習(xí)產(chǎn)生的,而計(jì)算機(jī)怎么去表示、獲取、學(xué)習(xí)常識(shí),并將常識(shí)與數(shù)據(jù)結(jié)合是個(gè)挑戰(zhàn),全世界都還沒有解決這個(gè)問題。
徐波告訴記者,目前機(jī)器服務(wù)多為簡單查詢,不涉及“推理”查詢類信息服務(wù),而且缺乏基本語言理解能力?!澳銌枡C(jī)器明天這個(gè)天氣狀況會(huì)造成航班延誤嗎?機(jī)器回答不了。你讓機(jī)器推薦一個(gè)附近的餐廳,不要日本菜,機(jī)器推薦的沒準(zhǔn)就是日本餐廳。
專家認(rèn)為,機(jī)器基本不具有的上下文功能,也讓人機(jī)交互之間難以順暢進(jìn)行。目前開放領(lǐng)域的聊天系統(tǒng),會(huì)根據(jù)用戶輸入的語句生成系統(tǒng)的回答語句。這種系統(tǒng)采用單輪的一問一答方式訓(xùn)練,而對于多輪交互才能完成的對話,機(jī)器無法將聊天中的上下文信息關(guān)聯(lián)起來,導(dǎo)致交流不暢。
“人與人之間的交流,最重要的就是持續(xù)、雙向、可打斷。為實(shí)現(xiàn)自然流暢的交互,科大訊飛采用了一個(gè)全鏈路的貫穿過程,需要包括持續(xù)的語音喚醒、人聲檢測、智能斷句、無效語音拒識(shí)等各個(gè)模塊相互配合才能完成。”丁瑞說,智能斷句主要是在識(shí)別過程中,用語義信息來預(yù)測和判定。以點(diǎn)歌為例,用戶經(jīng)常會(huì)說,我想聽……周杰倫的歌,中間會(huì)有思考過程。此時(shí)后端的斷句引擎必須等待后續(xù)的有效音頻,給出完整的理解內(nèi)容。但如果用戶停頓時(shí)間過長,后端引擎也會(huì)給出響應(yīng),比如會(huì)問:您要聽誰的歌,以做出更好的引導(dǎo)提示。
雖然各方在積極探索機(jī)器的自然語言理解實(shí)現(xiàn)路徑,但要實(shí)現(xiàn)電影《她》中的強(qiáng)人工智能,還有待時(shí)日。