導(dǎo)讀:本次報告將針對人機(jī)對話中的核心關(guān)鍵技術(shù)的發(fā)展前沿和研究趨勢進(jìn)行綜述,主要包括開放域人機(jī)對話和任務(wù)型對話的關(guān)鍵技術(shù)及挑戰(zhàn)。
近年來,人機(jī)對話受到了學(xué)術(shù)界和工業(yè)界的廣泛重視。在研究上,自然語言理解技術(shù)逐漸從序列標(biāo)注向深度學(xué)習(xí)的方向發(fā)展,對話管理經(jīng)歷了由規(guī)則到有指導(dǎo)學(xué)習(xí)再到強(qiáng)化學(xué)習(xí)的發(fā)展過程,自然語言生成則從模板生成、句子規(guī)劃,發(fā)展到端到端的深度學(xué)習(xí)模型。在應(yīng)用上,基于人機(jī)對話技術(shù)的產(chǎn)品也層出不窮,如蘋果公司的 Siri、亞馬遜的 Echo 音箱、微軟的 Cortana、Facebook M 以及谷歌的 Allo 等。同時,各大企業(yè)紛紛研發(fā)及收購 AI 平臺,如微軟研發(fā) Luis.ai,三星、Facebook 和谷歌分別收購了 viv.ai、wit.ai 和 api.ai,百度自主研發(fā)了 Duer OS 以及收購 kitt.ai,以上種種跡象表明了各大企業(yè)將在今后著力發(fā)展人機(jī)對話技術(shù)。本次報告將針對人機(jī)對話中的核心關(guān)鍵技術(shù)的發(fā)展前沿和研究趨勢進(jìn)行綜述,主要包括開放域人機(jī)對話和任務(wù)型對話的關(guān)鍵技術(shù)及挑戰(zhàn)。
人機(jī)對話主要技術(shù)方向:
雖然人機(jī)對話主要包括四個功能:聊天、任務(wù)型對話、問答以及推薦,但主要集中在開放域聊天和任務(wù)型對話兩方面。二者在目標(biāo)、評價、最終目的上有一定區(qū)別,典型的應(yīng)用系統(tǒng)也不大一樣。
一. 開放域聊天
開放域聊天的一個基礎(chǔ)系統(tǒng)架構(gòu)如上圖所示。
1. 前沿研究點:回復(fù)質(zhì)量
上圖總結(jié)了17年到19年開放域的一些論文和一些相關(guān)的知識點,下面的部分主要關(guān)注回復(fù)質(zhì)量?;貜?fù)的話是通順、流暢的?;貜?fù)質(zhì)量是一個基礎(chǔ),包含很多工作,也面臨著多方面的挑戰(zhàn)。
① 回復(fù)質(zhì)量上存在的挑戰(zhàn)
這里舉兩個例子,左邊是單輪回復(fù)的例子,右邊是多輪回復(fù)的例子。從中可以看出兩個問題,第一個問題是在單輪回復(fù)中由于統(tǒng)計模型 loss function 的一個限制,通常采用的回復(fù)都是統(tǒng)計上占優(yōu)的高頻回復(fù),叫做萬能回復(fù)。而多輪回復(fù)可以看出是一個局部依賴的回復(fù),就相當(dāng)于它沒有學(xué)到更高層次的上下文信息。這是一個局部學(xué)習(xí),與上下文無關(guān)的問題。
② 優(yōu)化初始的解碼過程
我們在單輪回復(fù)對話中,積累了一些工作,首先是優(yōu)化了解碼器過程,通過觀察真實的數(shù)據(jù)。如果第一個解碼出一個高頻詞,比如我,你,我們,你們,那么通常來說回復(fù)不會太好,針對這個問題我們做了一個 learning to start for sequence to sequence 的 framework,后面大家可以把 learning to start 這個模塊做進(jìn)一步改進(jìn)和提升。但目前來說對原有算法效果已經(jīng)有了一定的效果。
③ 更好地利用檢索結(jié)果提高對話生成質(zhì)量
其次,今年發(fā)表在 ACL2019 上面的一篇文章,檢索式和生成式是互相對抗又互補(bǔ)的結(jié)果,檢索式結(jié)果可以保證相關(guān)性、流暢性比較好,但是多樣性受限,不論怎樣檢索都跑不出編輯好的話術(shù)。生成式的好處就是機(jī)器可以創(chuàng)造,但生成式模型面臨著萬能回復(fù)的問題。利用檢索式結(jié)果和生成式結(jié)果互相增強(qiáng)的方式,提出這樣一個模型。