技術(shù)
導(dǎo)讀:人工智能技術(shù)在機(jī)器翻譯領(lǐng)域表現(xiàn)出了讓人驚喜的水準(zhǔn),巨頭扎推進(jìn)入,機(jī)器翻譯的未來注定是無限接近于人。
解讀:人工智能技術(shù)在機(jī)器翻譯領(lǐng)域表現(xiàn)出了讓人驚喜的水準(zhǔn),巨頭扎推進(jìn)入,機(jī)器翻譯的未來注定是無限接近于人。
打破語言障礙一直是人類的夢(mèng)想,什么時(shí)候人類不用再為學(xué)習(xí)外語而發(fā)愁?翻譯AI正在替人類分憂。當(dāng)今,翻譯軟件已經(jīng)成為了出國旅行必備品。雖然有時(shí)它還不夠精準(zhǔn),但是不能否認(rèn)的是:機(jī)器翻譯的未來注定是無限接近于人。
巨頭騰訊也看好機(jī)器翻譯的廣闊前景。在過去兩年,騰訊內(nèi)部成立了三個(gè)關(guān)于人工智能機(jī)器翻譯的部門,悄悄的開始布局這一領(lǐng)域。翻譯君成為了三個(gè)團(tuán)隊(duì)中走出來的隊(duì)伍。其項(xiàng)目負(fù)責(zé)人李學(xué)朝向品途商業(yè)評(píng)論透露:“騰訊的風(fēng)格就是這樣,在產(chǎn)品有成果之前保持低調(diào)?!?/p>
如今翻譯君的成果包括:可以完成同聲傳譯、拍照翻譯、詞典查詢、口語跟讀等工作。其中的實(shí)時(shí)語音對(duì)話功能,能夠?yàn)槌鼍陈糜?、外語學(xué)習(xí)、日常工作生活等跨語種交流提實(shí)時(shí)、準(zhǔn)確、快速的同步翻譯服務(wù)。
從騰訊翻譯君看機(jī)器翻譯的突破事實(shí)上,在過去兩年,深度學(xué)習(xí)已經(jīng)完全改寫了機(jī)器翻譯方法。對(duì)語言翻譯一無所知的深度學(xué)習(xí)研究人員正在利用相對(duì)簡單的機(jī)器學(xué)習(xí)解決方案,打敗世界上頂級(jí)翻譯學(xué)家建造的語言翻譯系統(tǒng)。
騰訊踩在了技術(shù)突破的節(jié)點(diǎn)提前進(jìn)入翻譯賽道。在2016年初,騰訊開始研發(fā)AI翻譯產(chǎn)品。但是那個(gè)時(shí)候,整個(gè)機(jī)器翻譯技術(shù)采用的還是一種叫做SMT的統(tǒng)計(jì)機(jī)器翻譯技術(shù),其背后的核心算法是基于短語的機(jī)器翻譯,錯(cuò)誤率較高。
直到2016年底谷歌在機(jī)器翻譯領(lǐng)域取得重大突破,其發(fā)布了神經(jīng)網(wǎng)路機(jī)器翻譯系統(tǒng)(Google Neural Machine Translation),簡稱GNMT,實(shí)現(xiàn)了迄今為止機(jī)器翻譯質(zhì)量的最大提升。在不同的語言對(duì)比中,GNMT把PBMT與人工翻譯的鴻溝縮小了58% ~85%,接近了人工翻譯的水平。
谷歌翻譯準(zhǔn)確率
這一突破背后的技術(shù)被稱為序列到序列學(xué)習(xí)sequence to sequence learning。這是一項(xiàng)非常強(qiáng)大的技術(shù),除了應(yīng)用于翻譯,這個(gè)算法還可以應(yīng)用于編寫AI聊天機(jī)器人和描述圖片。
這項(xiàng)技術(shù)突破后,許多人工翻譯工作者感慨到:“作為翻譯,看到這個(gè)新聞的時(shí)候,我理解了18世紀(jì)紡織工人看到蒸汽機(jī)時(shí)的憂慮與恐懼。”
NMT算法雖然成為巨大突破,但由于但不幸的是,NMT 系統(tǒng)的訓(xùn)練成本非常高,限制了這一技術(shù)的大范圍使用,僅有少數(shù)互聯(lián)網(wǎng)巨頭能夠投入并使用得起這樣的技術(shù)。
正是看到這門技術(shù)的高門檻和為整個(gè)行業(yè)帶來的大突破后,騰訊翻譯君團(tuán)隊(duì)很快調(diào)轉(zhuǎn)走向,采用了NMT技術(shù)。翻譯君團(tuán)隊(duì)基于神經(jīng)網(wǎng)絡(luò)的算法和騰訊的數(shù)據(jù)開發(fā)了TNMT算法。
2017年翻譯君悄然上線,目前,翻譯君支持中英日韓法德意土等15種語言和80個(gè)語種的對(duì)翻譯。
李學(xué)朝向品途商業(yè)評(píng)論介紹:“不同于基于短語的機(jī)器翻譯,騰訊翻譯君采用神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù),能從語料庫中自主學(xué)習(xí)自動(dòng)翻譯,并將整個(gè)句子視作翻譯的基本單元,使譯文更準(zhǔn)確,更符合各個(gè)國家的語言習(xí)慣。”
根據(jù)BLEU以及專業(yè)人工評(píng)測數(shù)據(jù)顯示,騰訊翻譯君各項(xiàng)翻譯能力均領(lǐng)先業(yè)界,尤其在中英互譯方面領(lǐng)先優(yōu)勢明顯。其主要的應(yīng)用場景包括,出國旅游、跨語言社交和會(huì)議翻譯等。除了2C的應(yīng)用場景外,騰訊翻譯君還向各行業(yè)開放了翻譯服務(wù)能力,目前與金山詞霸、VIPKID、大眾點(diǎn)評(píng)等多領(lǐng)域頭部平臺(tái)達(dá)成合作。
李學(xué)朝介紹,例如在VIPKID上外國教師對(duì)于幼兒的評(píng)價(jià),家長可以直接點(diǎn)擊翻譯成中文。而對(duì)于美團(tuán)和途家等布局海外的企業(yè),翻譯君也可以直接將點(diǎn)評(píng)翻譯成不同的語言。在騰訊內(nèi)部,翻譯君也服務(wù)了國際版QQ、QQ郵箱、QQ瀏覽器和騰訊云等產(chǎn)品以及騰訊多次國際會(huì)議。目前翻譯君的日服務(wù)請(qǐng)求量已經(jīng)超過3億次。
騰訊入局,國內(nèi)的機(jī)器翻譯大戰(zhàn)一觸即發(fā)雖然背靠騰訊這個(gè)流量制造機(jī),但是翻譯君確實(shí)屬于入行比較晚。在騰訊內(nèi)部PK勝出后,翻譯君將要面臨的首先是國內(nèi)的機(jī)器翻譯企業(yè)的殘酷競爭。目前的國內(nèi)翻譯市場,已經(jīng)有百度、科大訊飛、阿里巴巴和網(wǎng)易等巨頭行動(dòng)在前,還有外來者谷歌和微軟等外來者的強(qiáng)勢入侵。翻譯君的前途注定充滿挑戰(zhàn)。
百度是國內(nèi)最早布局機(jī)器翻譯領(lǐng)域的公司,2016年,12 月 21 日,在百度機(jī)器翻譯技術(shù)開放日上,百度技術(shù)委員會(huì)聯(lián)席主席、自然語言處理部技術(shù)負(fù)責(zé)人吳華博士表示,百度早于谷歌一年多,就率先發(fā)布了世界上首個(gè)互聯(lián)網(wǎng) NMT 系統(tǒng),引領(lǐng)機(jī)器翻譯進(jìn)入神經(jīng)網(wǎng)絡(luò)翻譯時(shí)代。
百度還結(jié)合OCR技術(shù)和語音識(shí)別技術(shù),發(fā)布了具有豐富實(shí)用功能的翻譯 APP ,可以實(shí)時(shí)的通過攝像頭的取景框來翻譯外文景點(diǎn)指示牌、菜單、說明書和實(shí)物等。結(jié)合語音技術(shù)的會(huì)話翻譯,可以幫助實(shí)現(xiàn)不同語種的無障礙交流。
除了百度,在機(jī)器翻譯領(lǐng)域一直走在前列的就是科大訊飛,從誕生之提起,訊飛就開始布局語言和翻譯領(lǐng)域的項(xiàng)目。在我們2016年度發(fā)布會(huì)上,科大訊飛CEO胡郁與外國友人為大家現(xiàn)場演示了如何通過一款“神器”,來進(jìn)行中英文之間的無礙溝通。
基于深度神經(jīng)網(wǎng)絡(luò)算法上的創(chuàng)新和突破,科大訊飛在2014年國際口語翻譯大賽IWSLT上獲得中英和英中兩個(gè)翻譯方向的全球第一名;在2015年又在由美國國家標(biāo)準(zhǔn)技術(shù)研究院組織的機(jī)器翻譯大賽中取得全球第一的成績。
2017年科大訊飛而且還推出了多款硬件翻譯產(chǎn)品,其中曉譯翻譯機(jī)1.0plus將世界上最先進(jìn)的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng),從在線系統(tǒng)優(yōu)化成一個(gè)離線系統(tǒng)。它可以在沒有網(wǎng)絡(luò)的情況下提供基本的翻譯服務(wù),能夠做到這一點(diǎn)的目前似乎只有訊飛。
相比于百度和科大訊飛,阿里巴巴和騰訊都屬于機(jī)器翻譯領(lǐng)域的后來者。
不過馬云可能不服,因?yàn)轳R云爸爸在創(chuàng)立阿里之前就是做翻譯服務(wù)的。2015年6月份,阿里就已收購國內(nèi)最大的眾包翻譯平臺(tái)——365翻譯。當(dāng)時(shí)把阿里翻譯平臺(tái)定位為阿里巴巴的語言服務(wù)平臺(tái),將瞄準(zhǔn)人機(jī)結(jié)合模式,在語言服務(wù)領(lǐng)域進(jìn)行更多創(chuàng)新。
2017年7月12日,阿里巴巴披露的一份技術(shù)資料顯示,阿里翻譯團(tuán)隊(duì)通過使用阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI實(shí)現(xiàn)了模型訓(xùn)練效率5倍的飛躍,并已應(yīng)用在英俄電商翻譯質(zhì)量優(yōu)化項(xiàng)目中。
在阿里巴巴內(nèi)部,阿里翻譯負(fù)責(zé)為1688國際站、全球速賣通等提供多語言服務(wù),中國賣家填寫的一些中文信息會(huì)被機(jī)器自動(dòng)翻譯成多國語言。該團(tuán)隊(duì)同時(shí)還為釘釘、東南亞電商Lazada等提供服務(wù)。目前阿里的翻譯聚焦在電商領(lǐng)域。
除了BAT網(wǎng)易和搜狗也布局了機(jī)器翻譯。2017年5月,網(wǎng)易有道在GMIC(全球移動(dòng)互聯(lián)網(wǎng)大會(huì))未來創(chuàng)新峰會(huì)上公布:由網(wǎng)易公司自主研發(fā)的神經(jīng)網(wǎng)絡(luò)翻譯( Neural Machine Translation,以下簡稱NMT)技術(shù)正式上線。作為受到丁磊親自“過問”、網(wǎng)易最重要技術(shù)創(chuàng)新之一,此次在有道上線的NMT技術(shù),由網(wǎng)易有道與網(wǎng)易杭州研究院歷時(shí)兩年合力研發(fā),將服務(wù)于有道詞典、有道翻譯官、有道翻譯網(wǎng)頁版、有道e讀等產(chǎn)品。
2017年,搜狗機(jī)器翻譯團(tuán)隊(duì)獲得 WMT (是機(jī)器翻譯領(lǐng)域的國際頂級(jí)評(píng)測比賽之一)中英機(jī)器翻譯冠軍。
搜狗機(jī)器翻譯團(tuán)隊(duì)成立于 2016 年,是搜狗知音引擎的重要技術(shù)方向,成立之初,基于知音引擎團(tuán)隊(duì)在語音技術(shù)方面的積累,半年內(nèi)自研完成了搜狗自有的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù),目前機(jī)器翻譯技術(shù)已經(jīng)應(yīng)用在搜狗同傳和搜狗輸入法的語音、文本翻譯中。
巨頭扎推商業(yè)模式多元化既然NMT的技術(shù)成本如此之高,為什么巨頭還扎推來做呢?因?yàn)檫@門技術(shù)如果落地到商業(yè)領(lǐng)域?qū)矸浅V闊的前景。
搜狗王小川認(rèn)為,機(jī)器翻譯類似于“語音識(shí)別”,獨(dú)立存在的商業(yè)模式有限。最好的方式是把這個(gè)技術(shù)融入到其他產(chǎn)品中去升級(jí)其他產(chǎn)品,讓其他產(chǎn)品更強(qiáng)大。
機(jī)器翻譯最廣闊的商用場景就是賦能。
在商用方向,百度翻譯有超過1萬個(gè)第三方應(yīng)用接入,例如華為將翻譯服務(wù)集成到其Ascend Mate7手機(jī)的攝像頭翻譯應(yīng)用中,帶有翻譯功能的手機(jī)被銷往法國、德國等30多個(gè)國家和地區(qū);B2B跨境電子商務(wù)平臺(tái)「敦煌網(wǎng)」使用「百度翻譯」進(jìn)行跨境貿(mào)易,促進(jìn)了對(duì)外貿(mào)易的發(fā)展。據(jù)統(tǒng)計(jì),百度翻譯為企業(yè)每年節(jié)省的人工翻譯成本折合人民幣高達(dá)2億元。這為百度帶來豐厚的利潤。
在C端領(lǐng)域商用中,科大訊飛也實(shí)現(xiàn)了變現(xiàn),曉譯翻譯機(jī)可以滿足80%的出國人員在各種各樣情況下使用翻譯系統(tǒng)。其背后設(shè)置了SOS的緊急聯(lián)絡(luò)按鈕。在遇到緊急情況的時(shí)候,按下鍵三秒鐘,所在的位置就會(huì)在訊飛后臺(tái)專業(yè)服務(wù)中心的大屏幕上呈現(xiàn)出來,還可以接通緊急聯(lián)系人或大使館的電話。這樣的產(chǎn)品在京東上售價(jià)2999,好評(píng)率達(dá)到98%。其在京東上已經(jīng)有數(shù)萬的銷量和評(píng)論。
在商業(yè)模式上,翻譯君負(fù)責(zé)人李學(xué)朝認(rèn)為,騰訊自己做機(jī)器翻譯不僅可以省掉騰訊公司內(nèi)部的翻譯費(fèi)用,未來還可以賦能給社交產(chǎn)品、甚至騰訊整個(gè)生態(tài)。
如今僅翻譯君團(tuán)隊(duì)就有20多位人工智能專家全職支持這個(gè)項(xiàng)目,可見騰訊想要拿下這個(gè)領(lǐng)域的決心。
騰訊在全球合作伙伴大會(huì)發(fā)布8大AI應(yīng)用場景
人工智能技術(shù)在機(jī)器翻譯領(lǐng)域確實(shí)表現(xiàn)出了讓人驚喜的水準(zhǔn)。無論是說走就走的出國旅游,還是跨洋交流的留學(xué)辦公,使用語音翻譯軟件來實(shí)現(xiàn)“說中文,出英文”的功能效果,基本都能滿足與外國人的日常的短語交流,大大提升彼此的溝通效率。
雖然在長句子和情感的翻譯上,機(jī)器翻譯還有很大誤差,但是從巨頭花費(fèi)大價(jià)錢和精力競相投入到該領(lǐng)域的力度就可以看出它未來廣闊的前景。
據(jù)統(tǒng)計(jì),全世界有5000余種語言。其中使用人口達(dá)5000萬的有19種。
能夠掌握10種語言以上的人也寥寥無幾,語音識(shí)別與同傳翻譯的組合,提供了溝通無障礙的可能,這影響的不僅是翻譯本身這件事,它還將帶來更多文化上的碰撞。
關(guān)于突破語言障礙,《圣經(jīng)》中有一句這樣的預(yù)言:“看哪!他們成為一樣的人民,都是一樣的言語,以后他們所要做的事就沒有不成就的了?!?/p>