導讀:在計算機幾十年的發(fā)展過程中,人機交互也就是人和機器之間的信息交換的技術,我們可以不夸張的說,也是一項引領性的技術。而人工智能和大數據的進步使人機交互成為現實、可用。
在計算機幾十年的發(fā)展過程中,人機交互也就是人和機器之間的信息交換的技術,我們可以不夸張的說,也是一項引領性的技術。而人工智能和大數據的進步使人機交互成為現實、可用。
人機交互的目的是為了讓機器更懂“你”,讓用戶更加自如。人機之間的自然交互一直是人工智能領域的一個美好愿景,而語音是人機交互中最重要的手段之一。
今天我們說的語音識別、人臉識別還有一些生物識別比如指紋、虹膜等等,這些東西其實都屬于人機交互的技術。當然它后面可能還有人工智能的支撐,可是不會所有的東西都只通過語音,或者是人臉識別,它可能是人機交互的一部分入口,但是它絕對不是全部的入口。
自然交互中,我們還很期待一些很科幻的場景,比如我們在很多科幻片中會有這樣的,像手勢、姿態(tài)的交互和識別。實際上手勢識別或者姿態(tài)的識別,在人機交互是一個很難的命題,像一些具體的任務上,比如空中打字,也就是我抬手,現在很多人有盲打的能力,實際上你一抬手就在敲你想打的字,你已經有了這個習慣。
目前,中國正在向“2030年成為世界領先的人工智能創(chuàng)新中心”這個目標大步邁進,四個新成立的國家人工智能開放創(chuàng)新平臺更是相當引人注目,Al將在今后以人類輔助性伙伴的形式參與到人類各項實際應用之中。
隨著接口技術的變化,交互模式也發(fā)生了變化,計算機從實驗室、機房已經走到了我們的辦公室、家庭,甚至今天已經都走到了我們的手上,計算機的臺數也發(fā)生了極大的數量級變化。
目前,在一些特定的情境里,語音交互已經成為主要的方式了。語音時代的最大意義在于,真正做到了解放雙手。尤其在汽車里、家里這樣的場景,意義非凡。解放了雙手之后,人類與世界的交互,才第一次實現了隨時隨地,隨心所欲。
簡單地說,世界是由懶人創(chuàng)造的,人機交互的演進也可以認為是人們越來越懶的演進過程。俗話說得好,“能動口的絕不動手”,就是這個道理。語音最大的優(yōu)勢是,它是人類最自然的交互方式。
國家政策層面,也在大力推動智能語音的發(fā)展。去年12月14日,科技部印發(fā)《促進新一代人工智能產業(yè)發(fā)展三年行動計劃(2018—2020年)》,明確對智能語音的發(fā)展做出展望,“到2020年,實現多場景下中文語音識別平均準確率達到96%,5米遠場識別率超過92%,用戶對話意圖識別準確率超過90%?!?/p>
當然,語音交互目前還存在很多問題。比如由于空間距離、背景噪音、其他人聲干擾、回聲、混響等多重復雜因素,進而導致的識別距離近、識別率低等明顯痛點。再比如單是中國語系、方言和口音就相當多,加上中文的多語義性,所以不同地區(qū)的人使用語音控制識別率差異較大。同時,在語義識別上,也存在上下文的關聯帶來識別的學習難、定位難和建立模型難等問題。
未來,隨著計算超速手機滲入到我們生活更多方面,智能技術的進步,也將為人機共生的美好前景提供支撐的技術。