應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

亞馬遜詳解Alexa“耳語(yǔ)模式”技術(shù),AI雖好卻一直不賺錢?

2020-02-19 08:52 前瞻網(wǎng)
關(guān)鍵詞:亞馬遜Alexa

導(dǎo)讀:亞馬遜一直在致力于讓其人工智能虛擬語(yǔ)音助手變得更加智能。2018年年底,亞馬遜推出了Alexa的“耳語(yǔ)模式”(Whisper Mode)。

亞馬遜一直在致力于讓其人工智能虛擬語(yǔ)音助手變得更加智能。2018年年底,亞馬遜推出了Alexa的“耳語(yǔ)模式”(Whisper Mode)。

這一新功能是為了服務(wù)一個(gè)常見(jiàn)的家庭場(chǎng)景:當(dāng)房間內(nèi)有人睡著后,你會(huì)不自覺(jué)地放低聲音,而走進(jìn)來(lái)的對(duì)話者感受到后也會(huì)同樣自覺(jué)降低音量。

耳語(yǔ)對(duì)話模式在睡前或夜間場(chǎng)景很有用,可以在與Alexa對(duì)話的同時(shí),讓房間保持安靜。它也讓Alexa與人的互動(dòng)變得更加自然。

亞馬遜在2019年11月將該功能擴(kuò)展到所有地區(qū),所有使用Alexa助手的智能家電現(xiàn)在都可以通過(guò)耳語(yǔ)模式回應(yīng)用戶的低聲講話。

耳語(yǔ)模式的實(shí)現(xiàn)難度在于,其與正常說(shuō)話的發(fā)音是不同的,耳語(yǔ)主要是清音,也就是說(shuō),它不涉及聲帶的振動(dòng)。與普通語(yǔ)音相比,它在低頻帶中往往具有更少的能量。

據(jù)亞馬遜Alexa語(yǔ)音系統(tǒng)專家Zeynab Raeesy發(fā)布的一篇博文,他們研究了兩種不同神經(jīng)網(wǎng)絡(luò)的使用,以區(qū)分正常說(shuō)話和耳語(yǔ)的單詞。

神經(jīng)網(wǎng)絡(luò)是一層數(shù)學(xué)函數(shù),大體上模仿了人類大腦的神經(jīng)元。

2020年1月,一篇發(fā)表在《IEEE信號(hào)處理快報(bào)》(IEEE Signal Processing Letters)雜志2020年1月號(hào)上的學(xué)術(shù)論文和一篇附帶的博客文章中詳細(xì)介紹了關(guān)于“耳語(yǔ)模式”技術(shù)的研究。

亞馬遜文本到語(yǔ)音(text-to-speech)研究小組的應(yīng)用科學(xué)家Marius Cotescu解釋說(shuō),主要的挑戰(zhàn)是如何在保持自然和說(shuō)話人身份的同時(shí),將正常的語(yǔ)言轉(zhuǎn)換成耳語(yǔ)。

他和他的同事們研究了幾種不同的轉(zhuǎn)換技術(shù),包括基于聲音分析的手工優(yōu)化的數(shù)字信號(hào)處理(DSP),但他們最終選擇了兩種機(jī)器學(xué)習(xí)方法,以保證它們的魯棒性(它們很容易對(duì)不熟悉的說(shuō)話者進(jìn)行概括)和性能(它們的性能優(yōu)于手工優(yōu)化的DSP)。

數(shù)字信號(hào)處理器(DSP)是一種專門的微處理器(或SIP塊),信號(hào)(可能來(lái)自音頻或視頻傳感器)不斷從模擬轉(zhuǎn)換到數(shù)字,經(jīng)過(guò)數(shù)字處理,然后轉(zhuǎn)換回模擬形式。手工優(yōu)化的匯編代碼往往比機(jī)器的更高效,而且許多與DSP計(jì)算相關(guān)的常用算法都是手寫的,以便充分利用架構(gòu)優(yōu)化。

研究團(tuán)隊(duì)選擇的兩種機(jī)器學(xué)習(xí)方法——利用高斯混合模型(GMMs)和深度神經(jīng)網(wǎng)絡(luò)(DNNs)——都涉及到訓(xùn)練算法,將正常語(yǔ)音的聲學(xué)特征映射到低聲語(yǔ)音的聲學(xué)特征上。

GMMs嘗試為對(duì)應(yīng)于輸入值的相關(guān)分布的每個(gè)輸出特性標(biāo)識(shí)值范圍,而DNNs(簡(jiǎn)單處理節(jié)點(diǎn)的密集算法)通過(guò)網(wǎng)絡(luò)試圖預(yù)測(cè)與特定輸入相關(guān)的輸出的過(guò)程來(lái)調(diào)整它們的內(nèi)部設(shè)置。


亞馬遜詳解Alexa“耳語(yǔ)模式”技術(shù),AI雖好卻一直不賺錢?


圖:正常發(fā)聲語(yǔ)音的聲譜圖(左),以及將低語(yǔ)-語(yǔ)音轉(zhuǎn)換模型應(yīng)用于此聲譜圖的結(jié)果。(圖源:亞馬遜)

研究人員的系統(tǒng)將聲音特征表示傳遞給語(yǔ)音編碼器,語(yǔ)音編碼器將其轉(zhuǎn)換成連續(xù)信號(hào)。

雖然實(shí)驗(yàn)版本依賴于一個(gè)名為WORLD的開源語(yǔ)音編碼器,但部署到客戶端的低語(yǔ)模式利用了一個(gè)神經(jīng)語(yǔ)音編碼器,進(jìn)一步提高了耳語(yǔ)語(yǔ)音的質(zhì)量。

該團(tuán)隊(duì)使用了兩套數(shù)據(jù)來(lái)訓(xùn)練他們的語(yǔ)音轉(zhuǎn)換系統(tǒng):一套是他們自己制作的,使用了來(lái)自澳大利亞、加拿大、德國(guó)、印度和美國(guó)的五名專業(yè)配音演員;另一套是該領(lǐng)域的流行基準(zhǔn)。

(兩個(gè)語(yǔ)料庫(kù)都包含了許多說(shuō)話者的話語(yǔ)對(duì)——一個(gè)是完全音量的,一個(gè)是低聲的。)

為了評(píng)估他們的系統(tǒng),他們將輸出與自然語(yǔ)音記錄和通過(guò)語(yǔ)音編碼器輸出的語(yǔ)音記錄進(jìn)行了比較。

在第一組實(shí)驗(yàn)中,研究小組對(duì)語(yǔ)音轉(zhuǎn)換系統(tǒng)進(jìn)行訓(xùn)練,讓它們識(shí)別來(lái)自不同說(shuō)話者的數(shù)據(jù),并對(duì)來(lái)自相同說(shuō)話者的數(shù)據(jù)進(jìn)行測(cè)試。

他們發(fā)現(xiàn),雖然原始錄音聽起來(lái)最自然,但由模型合成的低語(yǔ)聽起來(lái)比“語(yǔ)音編碼”的人類語(yǔ)言更自然。

最先進(jìn)的文本-語(yǔ)音轉(zhuǎn)換模型已經(jīng)可以產(chǎn)生聽起來(lái)像人類的語(yǔ)音片段。這種技術(shù)在谷歌助手Google Assistant里也有出現(xiàn),還有Alexa和亞馬遜Polly服務(wù)提供的新聞播報(bào)員語(yǔ)音,以及Alexa的名人語(yǔ)音功能。

用戶可以添加智能揚(yáng)聲器或顯示器的名人語(yǔ)音,入門價(jià)格為 0.99 美元,在試用期過(guò)后價(jià)格將提高至 4.99 美元。

在智能語(yǔ)音市場(chǎng),亞馬遜已經(jīng)占據(jù)了近七成的市場(chǎng)份額,遠(yuǎn)超最大的競(jìng)爭(zhēng)對(duì)手谷歌公司。智能語(yǔ)音助手Alexa越來(lái)越多地出現(xiàn)在各種智能設(shè)備上,在2019年5月亞馬遜就宣布Alexa的接入設(shè)備量已經(jīng)超過(guò)6萬(wàn)臺(tái)。

不過(guò),盡管Alexa的普及度不錯(cuò),其利潤(rùn)卻一直存疑。著名付費(fèi)科技媒體The Information在去年年底發(fā)表文章指出,亞馬遜在2019年前10個(gè)月共獲得了140萬(wàn)美元的Alexa技能收入,遠(yuǎn)低于其550萬(wàn)美元的目標(biāo)。

而Alexa的內(nèi)購(gòu)應(yīng)用也存在較大利潤(rùn)缺口,亞馬遜預(yù)計(jì)Alexa技能內(nèi)購(gòu)買在2019年前10個(gè)月的總收入將超過(guò)1800萬(wàn)美元,但實(shí)際收入僅為470萬(wàn)美元左右。不少用戶都認(rèn)為自己已經(jīng)購(gòu)買了Alexa設(shè)備,不應(yīng)該再為功能和服務(wù)花錢。

對(duì)此,亞馬遜倒是很淡定,一位發(fā)言人通過(guò)電子郵件回應(yīng)稱:“Alexa是亞馬遜的長(zhǎng)期賭注,我們對(duì)它的未來(lái)一直持樂(lè)觀態(tài)度。我們才剛剛開始探索Alexa的潛力?!?/p>