国产精品久久久久久免费软件,国产日韩欧美亚洲青青草原

亞馬遜詳解Alexa“耳語模式”技術(shù)，AI雖好卻一直不賺錢?

2020-02-19 08:52 前瞻網(wǎng)

關(guān)鍵詞：亞馬遜 Alexa

導(dǎo)讀：亞馬遜一直在致力于讓其人工智能虛擬語音助手變得更加智能。2018年年底，亞馬遜推出了Alexa的“耳語模式”(Whisper Mode)。

亞馬遜一直在致力于讓其人工智能虛擬語音助手變得更加智能。2018年年底，亞馬遜推出了Alexa的“耳語模式”(Whisper Mode)。

這一新功能是為了服務(wù)一個常見的家庭場景：當(dāng)房間內(nèi)有人睡著后，你會不自覺地放低聲音，而走進(jìn)來的對話者感受到后也會同樣自覺降低音量。

耳語對話模式在睡前或夜間場景很有用，可以在與Alexa對話的同時，讓房間保持安靜。它也讓Alexa與人的互動變得更加自然。

亞馬遜在2019年11月將該功能擴(kuò)展到所有地區(qū)，所有使用Alexa助手的智能家電現(xiàn)在都可以通過耳語模式回應(yīng)用戶的低聲講話。

耳語模式的實現(xiàn)難度在于，其與正常說話的發(fā)音是不同的，耳語主要是清音，也就是說，它不涉及聲帶的振動。與普通語音相比，它在低頻帶中往往具有更少的能量。

據(jù)亞馬遜Alexa語音系統(tǒng)專家Zeynab Raeesy發(fā)布的一篇博文，他們研究了兩種不同神經(jīng)網(wǎng)絡(luò)的使用，以區(qū)分正常說話和耳語的單詞。

神經(jīng)網(wǎng)絡(luò)是一層數(shù)學(xué)函數(shù)，大體上模仿了人類大腦的神經(jīng)元。

2020年1月，一篇發(fā)表在《IEEE信號處理快報》(IEEE Signal Processing Letters)雜志2020年1月號上的學(xué)術(shù)論文和一篇附帶的博客文章中詳細(xì)介紹了關(guān)于“耳語模式”技術(shù)的研究。

亞馬遜文本到語音(text-to-speech)研究小組的應(yīng)用科學(xué)家Marius Cotescu解釋說，主要的挑戰(zhàn)是如何在保持自然和說話人身份的同時，將正常的語言轉(zhuǎn)換成耳語。

他和他的同事們研究了幾種不同的轉(zhuǎn)換技術(shù)，包括基于聲音分析的手工優(yōu)化的數(shù)字信號處理(DSP)，但他們最終選擇了兩種機(jī)器學(xué)習(xí)方法，以保證它們的魯棒性(它們很容易對不熟悉的說話者進(jìn)行概括)和性能(它們的性能優(yōu)于手工優(yōu)化的DSP)。

數(shù)字信號處理器(DSP)是一種專門的微處理器(或SIP塊)，信號(可能來自音頻或視頻傳感器)不斷從模擬轉(zhuǎn)換到數(shù)字，經(jīng)過數(shù)字處理，然后轉(zhuǎn)換回模擬形式。手工優(yōu)化的匯編代碼往往比機(jī)器的更高效，而且許多與DSP計算相關(guān)的常用算法都是手寫的，以便充分利用架構(gòu)優(yōu)化。

研究團(tuán)隊選擇的兩種機(jī)器學(xué)習(xí)方法——利用高斯混合模型(GMMs)和深度神經(jīng)網(wǎng)絡(luò)(DNNs)——都涉及到訓(xùn)練算法，將正常語音的聲學(xué)特征映射到低聲語音的聲學(xué)特征上。

GMMs嘗試為對應(yīng)于輸入值的相關(guān)分布的每個輸出特性標(biāo)識值范圍，而DNNs(簡單處理節(jié)點的密集算法)通過網(wǎng)絡(luò)試圖預(yù)測與特定輸入相關(guān)的輸出的過程來調(diào)整它們的內(nèi)部設(shè)置。

亞馬遜詳解Alexa“耳語模式”技術(shù)，AI雖好卻一直不賺錢？

圖:正常發(fā)聲語音的聲譜圖(左)，以及將低語-語音轉(zhuǎn)換模型應(yīng)用于此聲譜圖的結(jié)果。(圖源:亞馬遜)

研究人員的系統(tǒng)將聲音特征表示傳遞給語音編碼器，語音編碼器將其轉(zhuǎn)換成連續(xù)信號。

雖然實驗版本依賴于一個名為WORLD的開源語音編碼器，但部署到客戶端的低語模式利用了一個神經(jīng)語音編碼器，進(jìn)一步提高了耳語語音的質(zhì)量。

該團(tuán)隊使用了兩套數(shù)據(jù)來訓(xùn)練他們的語音轉(zhuǎn)換系統(tǒng):一套是他們自己制作的，使用了來自澳大利亞、加拿大、德國、印度和美國的五名專業(yè)配音演員;另一套是該領(lǐng)域的流行基準(zhǔn)。

(兩個語料庫都包含了許多說話者的話語對——一個是完全音量的，一個是低聲的。)

為了評估他們的系統(tǒng)，他們將輸出與自然語音記錄和通過語音編碼器輸出的語音記錄進(jìn)行了比較。

在第一組實驗中，研究小組對語音轉(zhuǎn)換系統(tǒng)進(jìn)行訓(xùn)練，讓它們識別來自不同說話者的數(shù)據(jù)，并對來自相同說話者的數(shù)據(jù)進(jìn)行測試。

他們發(fā)現(xiàn)，雖然原始錄音聽起來最自然，但由模型合成的低語聽起來比“語音編碼”的人類語言更自然。

最先進(jìn)的文本-語音轉(zhuǎn)換模型已經(jīng)可以產(chǎn)生聽起來像人類的語音片段。這種技術(shù)在谷歌助手Google Assistant里也有出現(xiàn)，還有Alexa和亞馬遜Polly服務(wù)提供的新聞播報員語音，以及Alexa的名人語音功能。

用戶可以添加智能揚(yáng)聲器或顯示器的名人語音，入門價格為 0.99 美元，在試用期過后價格將提高至 4.99 美元。

在智能語音市場，亞馬遜已經(jīng)占據(jù)了近七成的市場份額，遠(yuǎn)超最大的競爭對手谷歌公司。智能語音助手Alexa越來越多地出現(xiàn)在各種智能設(shè)備上，在2019年5月亞馬遜就宣布Alexa的接入設(shè)備量已經(jīng)超過6萬臺。

不過，盡管Alexa的普及度不錯，其利潤卻一直存疑。著名付費(fèi)科技媒體The Information在去年年底發(fā)表文章指出，亞馬遜在2019年前10個月共獲得了140萬美元的Alexa技能收入，遠(yuǎn)低于其550萬美元的目標(biāo)。

而Alexa的內(nèi)購應(yīng)用也存在較大利潤缺口，亞馬遜預(yù)計Alexa技能內(nèi)購買在2019年前10個月的總收入將超過1800萬美元，但實際收入僅為470萬美元左右。不少用戶都認(rèn)為自己已經(jīng)購買了Alexa設(shè)備，不應(yīng)該再為功能和服務(wù)花錢。

對此，亞馬遜倒是很淡定，一位發(fā)言人通過電子郵件回應(yīng)稱：“Alexa是亞馬遜的長期賭注，我們對它的未來一直持樂觀態(tài)度。我們才剛剛開始探索Alexa的潛力?！?/p>

亞馬遜詳解Alexa“耳語模式”技術(shù)，AI雖好卻一直不賺錢?

相關(guān)閱讀