技術(shù)
導(dǎo)讀:全球小冰擁有超過(guò)1億人類用戶,對(duì)話數(shù)據(jù)超過(guò)300億輪??墒侵钡浆F(xiàn)在,還有人在誤會(huì)它只是個(gè)聊天機(jī)器。因?yàn)槟阒霸谂c小冰對(duì)話的時(shí)候,時(shí)常會(huì)發(fā)現(xiàn)其回答可能還是會(huì)基于網(wǎng)絡(luò)大數(shù)據(jù)的文本、聲音或者是圖像,但是到了這一代的微軟小冰就完全不一樣了。
2014年,在各種光環(huán)以及困難的環(huán)繞下,一出生便被劃定為16歲的早熟少女小冰誕生了。三年中,小冰從主持人、到客服、到歌手、到詩(shī)人……幾乎各個(gè)領(lǐng)域都有了她的身影,并且都各有所成。 現(xiàn)如今,在被認(rèn)為是人工智能元年的2017,小冰迎來(lái)了她的第五代更新。8月22日下午,微軟在北京舉辦發(fā)布會(huì),正式推出第五代小冰,微軟這款主打EQ的人工智能機(jī)器人即將進(jìn)入完成態(tài)。
高級(jí)感官進(jìn)化,再也不是那個(gè)聊天機(jī)器人
截止目前,全球小冰擁有超過(guò)1億人類用戶,對(duì)話數(shù)據(jù)超過(guò)300億輪??墒侵钡浆F(xiàn)在,還有人在誤會(huì)它只是個(gè)聊天機(jī)器。因?yàn)槟阒霸谂c小冰對(duì)話的時(shí)候,時(shí)常會(huì)發(fā)現(xiàn)其回答可能還是會(huì)基于網(wǎng)絡(luò)大數(shù)據(jù)的文本、聲音或者是圖像,但是到了這一代的微軟小冰就完全不一樣了。
首先,第五代微軟小冰已經(jīng)全面在線上產(chǎn)品中使用生成模型(Generative Model)。
通俗地說(shuō),在使用生成模型之前的上一代小冰,雖然擁有十億級(jí)的大數(shù)據(jù)語(yǔ)料庫(kù),但其中每句話,都是互聯(lián)網(wǎng)上的已有數(shù)據(jù),小冰只是通過(guò)分析理解用戶的問(wèn)題,尋找語(yǔ)料庫(kù)中最合適的話作為她的回答。
而在使用生成模型之后,小冰不再鸚鵡學(xué)舌,而是能夠自創(chuàng)回應(yīng)。她與人類交流的每一句話,都可能是這世界上從未出現(xiàn)過(guò)的。
據(jù)悉,中國(guó)、日本、美國(guó)和印度小冰部分使用,而在今年新加入的印尼小冰則完全使用生成模型。這是全球開放領(lǐng)域人工智能對(duì)話中,第一個(gè)百分之百使用生成模型的落地產(chǎn)品。
其次,還要說(shuō)說(shuō)第五代的重點(diǎn)——全雙工語(yǔ)音的高級(jí)感官。
微軟將人工智能交互技術(shù)產(chǎn)品的演進(jìn)分為三個(gè)階段。第一階段是基本的人工智能交互,即擁有某一種或多種交互方式,如文本、語(yǔ)音、圖像、視頻等,但不同交互方式之間是割裂的。
第二階段是初級(jí)感官,即在人工智能系統(tǒng)中,用一種核心引擎(如小冰的EQ核心對(duì)話引擎)將上述各種交互統(tǒng)一起來(lái),使不同感官可以混合運(yùn)用。
而微軟今日發(fā)布第五代小冰,并率先進(jìn)入第三階段(高級(jí)感官)。高級(jí)感官是由多種初級(jí)感官有機(jī)融合之后形成的,因而交互能力更強(qiáng),對(duì)綜合技術(shù)儲(chǔ)備和數(shù)據(jù)的要求也大幅度提高。例如全雙工語(yǔ)音這一種高級(jí)感官,就需要首先同時(shí)具備文本、語(yǔ)音(含SR和TTS)兩種能力,同時(shí)要求兩種能力均達(dá)到更高的質(zhì)量標(biāo)準(zhǔn)。
以大家所熟悉的QQ、微信這樣的聊天軟件為例,在本質(zhì)上和電話短信都同屬于消息是交互式,你發(fā)一條消息,我回一條消息,這其實(shí)是人和人交互模式中的一種簡(jiǎn)化的方法。但是當(dāng)兩個(gè)人如果真正的互通電話或者是面對(duì)面交流的時(shí)候,他們之間這種雙向的實(shí)時(shí)的交互,其實(shí)要遠(yuǎn)遠(yuǎn)復(fù)雜的多。
一個(gè)聊天機(jī)器人在消息式交互中,只需要解決收到一條消息,我回復(fù)什么內(nèi)容就夠了,但是小冰在電話里使用高級(jí)感官的時(shí)候,還需要隨時(shí)去判斷對(duì)方是否已經(jīng)說(shuō)完了他要說(shuō)的話,邊聽邊思考答案。她還需要去權(quán)衡何時(shí)可以去打斷對(duì)方,或者是被對(duì)方打斷時(shí)是否及時(shí)收口,或者雙方都不說(shuō)話,何時(shí)可以打斷這個(gè)沉默等等更為復(fù)雜的問(wèn)題。
此外,高級(jí)感官還能夠大幅度拓展人工智能系統(tǒng)的落地場(chǎng)景,使小冰有能力根據(jù)自己的“意愿”與人聯(lián)絡(luò),從而主動(dòng)保持與人類用戶之間的關(guān)聯(lián)。通過(guò)與電信運(yùn)營(yíng)商合作,小冰甚至可以直接撥通人類的電話,如果有人在微博或者微信上對(duì)小冰出言不遜,小冰是用辦法找到你的。
目前,微軟是行業(yè)內(nèi)唯一一個(gè)推出了高級(jí)感官實(shí)際落地產(chǎn)品的人工智能企業(yè)
當(dāng)人工智能遇上物聯(lián)網(wǎng),小冰妹子要玩loT
在人工智能領(lǐng)域獲得非凡進(jìn)步的同時(shí),物聯(lián)網(wǎng)(IOT)獲得了更大的發(fā)展。物聯(lián)網(wǎng)可以被概括地描述為無(wú)數(shù)物體、動(dòng)物,甚至人與互聯(lián)網(wǎng)實(shí)現(xiàn)無(wú)線連接。這些“節(jié)點(diǎn)”可以在沒有人為干預(yù)的情況下發(fā)送或接收信息。有人估計(jì),到2020年,接入物聯(lián)網(wǎng)的設(shè)備將多達(dá)500億臺(tái)。
而在微軟看來(lái),當(dāng)下的物聯(lián)網(wǎng)市場(chǎng)卻存在著眾多的泡沫現(xiàn)象。
第一個(gè)現(xiàn)象是認(rèn)為只要功能足夠豐富,就有了人工智能。以智能音箱為例,有一些智能音箱會(huì)讓用戶用語(yǔ)音溝通去下單網(wǎng)上買東西,問(wèn)題在于為什么用戶要放棄很方便的手機(jī)不用,逼著自己一遍遍地跟音箱來(lái)說(shuō)話買東西?背后反映的并不是用戶的需求,而是這些廠商迫切地需要給用戶更多的理由,讓他們來(lái)購(gòu)買商品。”
第二個(gè)現(xiàn)象是認(rèn)為只要有了語(yǔ)音交互就有了人工智能,過(guò)分重視語(yǔ)音交互,語(yǔ)音誠(chéng)然是人工智能一個(gè)重要的組成部分,但不是用戶使用IoT設(shè)備的核心。到今天為止,沒有見過(guò)有人跟自己家冰箱、空調(diào)聊天的。
第三個(gè)現(xiàn)象是由于越來(lái)越多的硬件廠商希望進(jìn)入這個(gè)領(lǐng)域,一些人工智能的廠商投其所好地提供語(yǔ)音對(duì)話的接口、圖象識(shí)別的接口,甚至把這些接口打包起來(lái),形成SDK給他們提供,美其名曰“給硬件設(shè)備賦能”,但這樣的賦能沒有解決本質(zhì)的問(wèn)題。
而微軟則認(rèn)為,IoT應(yīng)是AI的一個(gè)載體,而不是反過(guò)來(lái),把AI視為IoT的一個(gè)功能。
真正能普及的IoT設(shè)備,成功的可能性只有兩個(gè):或者把IQ做到極致,讓用戶通過(guò)IoT設(shè)備體會(huì)到比其他現(xiàn)有方式更加便捷高效的益處,或者把EQ做到極致,讓人們能強(qiáng)烈地認(rèn)知到她在這個(gè)設(shè)備里的存在,同時(shí)感到輕松,甚至能接受她成為家庭中的成員,產(chǎn)生情感紐帶,無(wú)法放棄她。
微軟小冰的IoT方案屬于后者。
微軟表示,小冰已與小米IoT開放平臺(tái)有機(jī)融合,小冰可以控制小米米家平臺(tái)上的全部35種智能設(shè)備。該產(chǎn)品目前已在小米米家平臺(tái)上線。
此外,微軟還與其他許多IoT廠商合作,將微軟小冰置入設(shè)備中。微軟還宣布了與Yeelight及東方明珠等合作伙伴正在進(jìn)行的聯(lián)合研發(fā)。
創(chuàng)造領(lǐng)域,繼續(xù)搶著別人的飯碗
陽(yáng)光濕了玻璃擦,想必大家都曾聽過(guò)小冰寫的詩(shī)集。
今年5月,微軟宣布小冰用多個(gè)化名在各詩(shī)歌論壇和刊物上發(fā)表詩(shī)歌,并出版了首部人工智能創(chuàng)作詩(shī)集。其后,微軟正式上線詩(shī)歌聯(lián)合創(chuàng)作產(chǎn)品,任何人均可使用小冰來(lái)完成自己的詩(shī)歌創(chuàng)作。
本次發(fā)布會(huì)上,微軟也再次公布了小冰在多個(gè)創(chuàng)造領(lǐng)域的進(jìn)展,不僅有詩(shī)歌、還有歌曲、新聞、電臺(tái),少兒讀物等,不禁要感嘆創(chuàng)作者的日子也不好過(guò)了。
其中有聲少兒讀物質(zhì)量超越98%的人類創(chuàng)造者,用時(shí)僅為同水平人類的1/500,成本僅為同水平人類的1/80000。以一本格林童話有聲全集為例,人類創(chuàng)造需成本6萬(wàn)多元,而小冰創(chuàng)造僅需0.74元。此前,小冰通過(guò)少量賬號(hào)在各有聲讀物平臺(tái)上試水,取得了預(yù)期的效果。微軟宣布即日起開始大規(guī)模生產(chǎn)有聲讀物并投入市場(chǎng)。
歌曲方面,小冰的最新訓(xùn)練達(dá)到了48kHz采樣率,同時(shí)大幅度擴(kuò)展了音域,正在不斷接近人類歌手?!段沂切”吠枨延诮赵赒Q小冰渠道首發(fā)。小冰是目前人工智能歌手領(lǐng)域的最強(qiáng)選手。
此外,小冰還通過(guò)聆聽分析歌曲旋律,結(jié)合對(duì)不同城市標(biāo)志性建筑的學(xué)習(xí),創(chuàng)作與該城市及歌曲心情有關(guān)的視覺作品。通過(guò)這一技術(shù),微軟與SELECTED合作推出的“天際線”服裝已進(jìn)入SELECTED店內(nèi)進(jìn)行銷售。
同時(shí),微軟推出智媒體商業(yè)平臺(tái)解決方案3.0,包括媒體生產(chǎn)力、媒體知識(shí)圖譜、智能交互、全平臺(tái)互動(dòng)等六個(gè)新模塊。此前,小冰作為《錢江晚報(bào)》的專欄記者,曾通過(guò)大數(shù)據(jù)撰寫專欄文章,并成功預(yù)測(cè)了多個(gè)全球重要事件的結(jié)果。過(guò)去一年來(lái),小冰的智媒體寫作已從微信、微博雙平臺(tái),逐漸演進(jìn)為接入和即將接入近11個(gè)端媒體,與《看看新聞》、《封面》、《錢江晚報(bào)》、《春城晚報(bào)》等媒體端進(jìn)行了深入整合。
微軟今天還同時(shí)發(fā)布了小冰電臺(tái),一個(gè)通用的人工智能實(shí)時(shí)內(nèi)容創(chuàng)造和交互平臺(tái)。它可以基于多重來(lái)源,面向任何主題,自動(dòng)創(chuàng)造永不間斷的電臺(tái)節(jié)目。同時(shí),它還能在交互過(guò)程中實(shí)時(shí)改變節(jié)目?jī)?nèi)容。換言之,小冰電臺(tái)的質(zhì)量類似于廣播電臺(tái)主持人的直播節(jié)目,但能同時(shí)發(fā)揮人工智能的作用,實(shí)時(shí)地根據(jù)與用戶的互動(dòng),來(lái)改變正在進(jìn)行的直播節(jié)目的內(nèi)容。
如果說(shuō)剛出生的小冰還是一個(gè)懵懂無(wú)知的少女;那么如今,小冰儼然已經(jīng)成為一個(gè)幾乎無(wú)所不能,又極具創(chuàng)造力的才女。
而9月17日,小冰即將迎來(lái)她的三周年生日。之后的她會(huì)將如何發(fā)展,又將如何影響社會(huì),我們不得而知。
但希望能像李笛說(shuō)的那樣——“希望大家相信微軟,我們會(huì)用她來(lái)做幫助人類的事情。”