應用

技術

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

語音識別走到了哪一步

2018-05-16 17:03 中國智能化網(wǎng)

導讀:在人工智能快速發(fā)展的今天,語音識別開始成為很多設備的標配,語音識別開始被越來越多的人關注,國外微軟、谷歌、Facebook,國內(nèi)的科大訊飛、思必馳等廠商都在研發(fā)語音識別新策略新算法,今天小編就將為你做語音識別技術的簡單介紹,并談談它的發(fā)展歷程和未來可能的發(fā)展方向。

  在人工智能快速發(fā)展的今天,語音識別開始成為很多設備的標配,語音識別開始被越來越多的人關注,國外微軟、谷歌、Facebook,國內(nèi)的科大訊飛、思必馳等廠商都在研發(fā)語音識別新策略新算法,今天小編就將為你做語音識別技術的簡單介紹,并談談它的發(fā)展歷程和未來可能的發(fā)展方向。

  語音識別技術

  在電影《鋼鐵俠》中,智能助理賈維斯的出色表現(xiàn)讓大家充滿了對智能語音助手的期待。語音識別技術就是為了讓機器人聽明白你在說什么,它就好比“機器的聽覺系統(tǒng)”,該技術讓機器通過識別和理解,把語音信號轉(zhuǎn)變?yōu)橄鄳奈谋净蛎睢?/p>

  聽覺系統(tǒng)

  語音識別系統(tǒng)本質(zhì)上是一種模式識別系統(tǒng),包括特征提取、模式匹配、參考模式庫等三個基本單元,它的基本結構如下圖所示:

  模式識別系統(tǒng)

  語音識別系統(tǒng)構建過程整體上包括兩大部分:訓練和識別。訓練通常是離線完成的,海量未知語音經(jīng)過話筒變換成電信號后加在識別系統(tǒng)的輸入端,首先經(jīng)過預處理,再根據(jù)人的語音特點建立語音模型,對輸入的語音信號進行分析,并抽取所需的特征,在此基礎上建立語音識別所需的模板;而識別過程通常是在線完成的,對用戶實時的語音進行自動識別。識別過程通常又可以分為“前端”和“后端”兩大模塊:“前端”模塊主要的作用是進行端點檢測(去除多余的靜音和非說話聲)、降噪、特征提取等;“后端”模塊的作用是利用訓練好的“聲學模型”和“語言模型”對用戶說話的特征向量進行統(tǒng)計模式識別(又稱“解碼”),得到其包含的文字信息。

  事實上,語音識別60多年的發(fā)展過程可以分成多個階段。早期的20多年,即從20世紀50年代到70年代,是科學家們走彎路的階段,全世界的科學家認為必須先讓計算機理解自然語言,也就是用電腦模擬人腦,這20多年的研究成果近乎為零。

  直到1970年后,統(tǒng)計語言學的出現(xiàn)才使語音識別重獲新生,并取得了今天的非凡成就。推動這個技術路線轉(zhuǎn)變的關鍵人物是德里克?賈里尼克。采用統(tǒng)計的方法,IBM將當時的語音識別率提升到了90%,同時語音識別的規(guī)模從幾百單詞上升到幾萬單詞,這樣語音識別就有了從實驗室走向?qū)嶋H應用的可能。