應用

技術

物聯(lián)網世界 >> 物聯(lián)網新聞 >> 物聯(lián)網熱點新聞
企業(yè)注冊個人注冊登錄

深度學習是如何顛覆Siri們的?

2018-01-12 16:01 微信公眾號 OReillyData

導讀:語音識別的夢想是一個能在不同的環(huán)境下、能應對多種口音和語言的、真正理解人類語言的系統(tǒng)。幾十年來,對這個問題的嘗試都沒有成功。尋找一個能有效地創(chuàng)建這樣的系統(tǒng)的策略看起來是不可能完成的任務。

  語音識別的夢想是一個能在不同的環(huán)境下、能應對多種口音和語言的、真正理解人類語言的系統(tǒng)。幾十年來,對這個問題的嘗試都沒有成功。尋找一個能有效地創(chuàng)建這樣的系統(tǒng)的策略看起來是不可能完成的任務。

  然而,在過去的幾年間,人工智能和深度學習領域的突破已經顛覆了對語音識別探索的一切。深度學習技術在語音識別領域的運用已經取得了顯著的進步?,F(xiàn)在我們已經在非常多樣的產品(比如Amazon Echo、Apple Siri等)里面看到了展示出來的發(fā)展的躍升。在這篇博文里,我會回顧一下近期語音識別的發(fā)展,檢視帶來這些快速進步的因素,并會討論一下未來的發(fā)展以及我們離完全解決這個問題還有多遠。

  一點背景知識

  多年以來,人工智能的主要任務之一就是去理解人類。人們希望機器不僅能理解人說了什么,還能理解他們說的是什么意思,并基于這些理解的信息采取相應的動作。這個目標就是對話人工智能的精髓。

  對話人工智能包括兩個主要類別:人機交互界面和人與人交互界面。在人機界面里,人類主要是通過語音和文字與機器交互。機器能理解人類的意思(即使只是在一個有限的形式下)并采取某個動作,這個機器可以是個人助理(比如Siri、Alexa等),或是某種聊天機器人。

  在人和人交互里,人工智能形成了兩個或多個人之間對話的橋梁,進行交互或是創(chuàng)造一些洞察。一個這樣的例子可能是人工智能參與一個電話會議,然后產生一個會議的紀要,并交付給相關的人。

  機器感知和認知

  為了能更好地理解對話人工智能所面臨的挑戰(zhàn)和背后的技術,我們必須先看看人工智能里的基本概念:機器感知和機器認知。

  機器感知是機器所具有和人類使用他們的感官去感知世界所類似的形式來分析數(shù)據的能力。換句話說,就是給予機器類似人的感官。很多使用計算機相機(例如目標檢測和識別)的人工智能算法都可以歸到計算機感知這一類里,他們關注的是視覺。語音識別和畫像是機器使用聽覺的感知技術。

  機器認知是在機器感知產生的元數(shù)據上的推理能力。機器認知包括決策、專家系統(tǒng)、采取行動、用戶傾向等。通常如果沒有機器認知不會對機器感知的輸出產生影響。機器感知為決策和采用什么動作提供合適的元數(shù)據信息。

  在對話人工智能里,機器感知包括所有的語音分析技術,比如識別和畫像;機器認知包括所有和理解語言相關的技術,它們是自然語言處理(Natural Language Processing, NLP)技術的一部分。

  語音識別領域的演進

  語音識別技術的研究和發(fā)展主要包括三個時期:

  2011年之前

  語音識別的研究已經有幾十年了。實際上,甚至是在上世紀50和60年代,就已經有了構建語音識別系統(tǒng)的嘗試了。不過,在2011年前,深度學習、大數(shù)據、云計算的進步尚未發(fā)生,這個時期的系統(tǒng)離能被廣泛采用和商業(yè)化都很遠。本質上,算法都不夠好、沒有足夠的數(shù)據來訓練算法、缺少必要的高性能計算機硬件都在妨礙研究人員嘗試更復雜的試驗。

  2011-2014年

  深度學習(在語音識別里)的第一個主要影響發(fā)生在2011年。一組來自微軟的研究人員——Li Deng、Dong Yu和Alex Acero——與Geoffrey Hinton和他的學生George Dahl創(chuàng)造了第一個基于深度學習的語音識別系統(tǒng),并立刻就產生了影響:錯誤率降低了25%多。這個系統(tǒng)是語音識別領域繁盛發(fā)展和提升的起點。憑借更多的數(shù)據、可用的云計算資源以及被諸如Apple(Siri)、Amazon(Alexa)和Google這樣的公司重視,語音識別的性能得到了顯著的提升,并伴隨著不少商業(yè)化產品被投放到市場。

  2015年至今

  到2014年底,循環(huán)神經網絡獲得了更多的關注。它與關注模型、記憶網絡和其他的技術一起,形成了第三波的進展?,F(xiàn)在,幾乎每種類型的算法和解決方案都使用某種類型的神經網絡模型。實際上,幾乎所有的語音研究都在轉向使用深度學習。

  近期語音領域里神經網絡模型的進展

  語音識別領域在過去6年里的突破比之前40多年加起來還要多。這些非凡的進展主要是來源于神經網絡。為了更好地理解深度學習的影響和它的作用,我們需要先理解一下語音識別是如何工作的。

  雖然語音識別作為一個活躍的研究領域已經存在幾乎50年了,構建可以理解人類語言的機器依然是最具挑戰(zhàn)的任務之一。它比看起來要困難得多。語音識別有一個清晰明確定義的任務:對于一些人類的語言,盡量把語音轉化成文字。然而,語音可能是一個噪聲信號的一部分,這就需要先把語音從噪音里面抽取出來,然后再轉化成相應的有意義的文字。

  語音識別系統(tǒng)的基本構造模塊

  基本上語音識別可以被分為三個層面:

  信號層面:信號層面的目標是從信號里抽取出語音,增強它(如果需要),進行適當?shù)念A處理和清理,再提取出特征。這一層面的內容與其他機器學習任務很類似。換句話說就是對于一些數(shù)據,我們需要進行預處理和特征提取。

  聲音層面:聲音層面的主要目標是把特性分到不同的聲音類。另外一種說法就是,聲音自身并沒能提供足夠精確的標準,而是有時被稱為聲音狀態(tài)的音素來提供。

  語言層面:因為我們假定這些不同類型的音是由人類產生的并有意義,我們需要把音組合成字和詞,再把詞組合成句子。這些語言層面的技術通常是一些不同類型的NLP技術。

  深度學習帶來的提升

  深度學習對語音識別領域帶來了顯著的影響。這一影響是如此深遠,以至于語音識別領域的幾乎每個解決方案里都可能有一個或多個基于神經網絡的算法嵌在其中。

  通常,對語音識別系統(tǒng)進行的評估都是基于一個叫做Swithboard(SWBD)的行業(yè)標準。SWDB是一套語音庫,由一些電話通話的內容所組成。SWDB包括語音和人工生成的文字記錄。

  語音識別系統(tǒng)的評估是基于一個叫詞錯誤率(WER)的指標。WER是指識別系統(tǒng)錯誤地識別出來的詞的數(shù)量。

  從2008年到2011年,WER處于一個比較穩(wěn)定的狀態(tài),在23%到24%左右。深度學習在2011年出現(xiàn),把WER從23.6%降到5.5%。這一改進是顛覆性的,取得了77%的提升。現(xiàn)在語音識別已經有了非常廣泛的應用,比如Apple的Siri、Amazon的Alexa、微軟的Cortana和Google的Now。我們也看到了由語音識別所激活的種類繁多的應用設備的出現(xiàn),比如Amazon的Echo和谷歌的Home。

  秘方

  是什么帶來了系統(tǒng)性能的顯著提升?是某個技術把WER從23.6%降到5.5%嗎?不幸的是,并不是一個單一的技術。深度學習和語音識別交織得非常緊密,它創(chuàng)造了一個涉及非常多種、不同的技術和方法的先進系統(tǒng)。

  例如在信號層面,有不同的基于神經網絡的模型來提取和增強語音里面的信號。而且,還有使用復雜和高效的基于神經網絡的方法替換掉經典的特征抽取的方法。  

  語音層面和語言層面也包括了多種深度學習技術,從使用不同的神經網絡架構的聲音狀態(tài)分類,到語言層面的基于神經網絡的語言模型。

  創(chuàng)造一個最前沿的系統(tǒng)并不是件容易的事情,包括實現(xiàn)和集成上面所說的不同的技術。

  最前沿的研究

  看到語音識別領域在近期有如此多的突破,讀者可能會很自然地問:下一步會發(fā)生什么?下面三個領域看起來會是近期主要受關注的研究領域:算法、數(shù)據和可擴展性。

  算法

  隨著Amazon的Echo和Google的Home的成功,很多公司都在開發(fā)和投放能理解語音的智能音箱和家用設備。然而這些設備帶來了一個新的問題,即用戶不會像和手機通話那樣靠近麥克風,而是離的比較遠。應對遠距離語音已經成為很多研究組正在挑戰(zhàn)的一個問題了?,F(xiàn)在,創(chuàng)新性的深度學習和信號處理技術已經能提升識別的質量了。

  當前最有趣的研究主題之一就是找到新的、奇特的神經網絡拓撲結構。我們已經在應用語言和語音模型方面看到一些有希望的結果。其中的兩個例子是語音模型里的Grid-LSTM和基于注意力的記憶網絡的語言模型。

  數(shù)據

  語音識別系統(tǒng)的一個關鍵問題就是缺乏真實世界的數(shù)據。例如,很難獲得高質量的遠距離語音數(shù)據。不過有很多其他來源的數(shù)據可用。一個問題就是,我們能創(chuàng)造合適的合成器來生成訓練數(shù)據嗎?產生合成的數(shù)據并用它來訓練系統(tǒng)目前正在獲得很多的關注。

  為了訓練一個語言識別系統(tǒng),語音和標注數(shù)據我們都需要。人工標注是一項繁瑣的工作,對于海量語音數(shù)據進行標注有時候會帶來問題。相應的,使用半監(jiān)督訓練和構建恰當?shù)淖R別器的置信測量就成為了一個活躍的研究主題。

  可擴展性

  由于深度學習和語音識別是高度交織的,它會使用非常多的計算資源(CPU和內存)。當用戶廣泛采用了語音識別系統(tǒng)后,如何構造一個高效的云端解決方案就成為一個有挑戰(zhàn)性的重要問題。正在進行的研究就包括如何降低計算花銷和開發(fā)更有效的解決方案?,F(xiàn)在大部分的語音識別系統(tǒng)都是基于云端的,這就帶來兩個需要解決的主要問題:網絡延遲和長時間連接。網絡延遲是那些需要立刻反應的設備(比如機器人)面對的關鍵問題。對于一個需要持續(xù)監(jiān)聽的系統(tǒng),因為帶寬的費用,長時間連接就是一個問題。對此,已經有研究關注面向邊緣設備的、和云端系統(tǒng)有一樣質量的語音識別能力的系統(tǒng)。

  完全解決語音識別問題

  近幾年,語音識別領域無論是性能還是商用都取得了跨越式的提升。那么離完全解決這個問題還有多遠?我們能在5年或許10年內宣布最終勝利?答案是:有可能,不過還是有不少挑戰(zhàn)性的問題需要時間來解決。

  第一個問題是對于噪音的敏感性。語音識別系統(tǒng)對于靠近麥克風的無噪音環(huán)境可以工作的很好。但是遠距離語音加上噪音數(shù)據會很快地降低系統(tǒng)性能。第二個問題是語言的擴展問題。人類世界有大約7000種語言,目前的大部分語音識別系統(tǒng)支持了大概80種。擴展到更多的語言帶來了大量的挑戰(zhàn)。另外,對很多語言我們缺乏數(shù)據,而語音識別系統(tǒng)在數(shù)據源很少的情況下很難被構建出來。

  結論

  深度學習已經在語音識別和對話式人工智能領域留下了烙印。因為近期的突破,我們已經處在革命的前沿?,F(xiàn)在最大的問題就是,我們能取得最終的勝利,解決語音識別的問題,從而可以像其他很多商業(yè)化的技術那樣使用語音識別嗎?或者是還有一個新的解決方案在等待被發(fā)現(xiàn)?畢竟,語音識別近期的進步僅僅只是整個問題的一個部分的答案。這個問題就是理解語言,它本身是一個復雜的謎題,甚至是一個更大的問題。