應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊個人注冊登錄

AI替代內(nèi)容創(chuàng)作者?讓機(jī)器服務(wù)于人才是未來趨勢

2018-04-25 15:39 騰訊媒體研究院

導(dǎo)讀:時間來到了2015年,騰訊作為國內(nèi)“第一個吃螃蟹的人”率先啟用機(jī)器人寫稿,并發(fā)布了一篇出自寫作機(jī)器人“Dreamwriter”之手的文章。官方稱Dreamwriter是騰訊財(cái)經(jīng)開發(fā)的自動化新聞寫作機(jī)器人,能夠根據(jù)算法在第一時間自動生成稿件,瞬時輸出分析和研判,一分鐘內(nèi)將重要資訊和解讀送達(dá)用戶。

  在2009年美國的職業(yè)棒球大聯(lián)盟季后賽上,一款名為“StatsMonkey”的人工軟件完成了世界上第一篇機(jī)器稿件。隨后的兩年內(nèi),包括《福布斯》在內(nèi)的頂級媒體里已經(jīng)開始嘗試機(jī)器人寫稿,其完成的文章應(yīng)用在商業(yè),政治等各個領(lǐng)域,依靠強(qiáng)大的大數(shù)據(jù)平臺,其30s生成一篇稿件的速度無人能及。一時間“寫稿機(jī)器人入侵傳媒界,記者編輯要失業(yè)了”的論調(diào)弄得滿城風(fēng)雨,記者編輯們也惶惶不可終日,都開始擔(dān)心起自己的前途。

  時間來到了2015年,騰訊作為國內(nèi)“第一個吃螃蟹的人”率先啟用機(jī)器人寫稿,并發(fā)布了一篇出自寫作機(jī)器人“Dreamwriter”之手的文章。官方稱Dreamwriter是騰訊財(cái)經(jīng)開發(fā)的自動化新聞寫作機(jī)器人,能夠根據(jù)算法在第一時間自動生成稿件,瞬時輸出分析和研判,一分鐘內(nèi)將重要資訊和解讀送達(dá)用戶。

  自那以后,國內(nèi)無論是傳統(tǒng)媒體還是互聯(lián)網(wǎng)巨頭,都紛紛開始使用人工智能進(jìn)行內(nèi)容創(chuàng)作,機(jī)器人寫的文章也在潛移默化之中融入進(jìn)我們的資訊世界。那么,在當(dāng)下這個時間節(jié)點(diǎn),機(jī)器寫稿究竟發(fā)展到了什么程度?與人相比機(jī)器在內(nèi)容創(chuàng)作方面的優(yōu)勢與劣勢在哪?

  本期內(nèi)容我們采訪到了Dreamwriter的負(fù)責(zé)人劉康,并結(jié)合當(dāng)下的研究資料整理成文,期待能夠解答內(nèi)容創(chuàng)作者朋友們內(nèi)心的疑問與焦慮。

  1、從Dreamwriter的寫稿邏輯看人工智能在內(nèi)容領(lǐng)域的應(yīng)用

  總體上看寫稿機(jī)器人總共可分為三類,都依賴“自然語言處理”技術(shù),第一類是模板式寫稿,即使用一個文章模板套用,將數(shù)據(jù)庫中的結(jié)構(gòu)化信息包括具體數(shù)字、百分比等填充進(jìn)去,進(jìn)行傳統(tǒng)意義上的“照本宣科”工作。

  第二類是提取后整理,即對包含無用信息的長自然語言文本進(jìn)行分析,提取文章中的關(guān)鍵信息,重新組織語言后輸出。

  第三種是自己生成,其通常方法是通過訓(xùn)練語言模型,對語言進(jìn)行數(shù)學(xué)建模,然后不使用原文的原話,使用自己的方式逐句地生成算法認(rèn)為“最能夠體現(xiàn)原文包含意思而且看起來像一句話”的文字。

  Dreamwriter在這三種模式中均有嘗試,但模板式寫稿和提取后整理是最常用的兩種。Dreamwriter進(jìn)行寫作的整個流程主要經(jīng)歷以上五個環(huán)節(jié):數(shù)據(jù)庫的建立、機(jī)器對數(shù)據(jù)庫的學(xué)習(xí)、就具體項(xiàng)目進(jìn)行寫作、內(nèi)容審核、分發(fā)。

  通俗來說,即是騰訊要先通過購買或自己創(chuàng)建數(shù)據(jù)庫(即要進(jìn)行機(jī)器寫稿的行業(yè)稿件);然后讓Dreamwriter機(jī)器對數(shù)據(jù)庫內(nèi)的各項(xiàng)數(shù)據(jù)進(jìn)行分析,得出字、詞在某個句子中相互匹配的概率,接著在寫作時選用最有可能匹配的字、詞、句進(jìn)行匹配,生成一篇完整的文章;寫作完成后經(jīng)過審核環(huán)節(jié),最后通過騰訊的內(nèi)容發(fā)布平臺到達(dá)用戶端。

AI替代內(nèi)容創(chuàng)作者?讓機(jī)器服務(wù)于人才是未來趨勢

  需要強(qiáng)調(diào)的是,機(jī)器人寫作的重要前提是數(shù)據(jù)庫的購買和建立。沒有數(shù)據(jù),機(jī)器就無法進(jìn)行數(shù)據(jù)的分析與學(xué)習(xí),也無法自動量化生成生動的文章。所謂機(jī)器學(xué)習(xí),即是專門的技術(shù)人員通過算法設(shè)計(jì)和數(shù)據(jù)分析技術(shù)讓Dreamwriter去理解數(shù)據(jù)庫。這種理解不只是對數(shù)據(jù)本身的理解,還要理解每一項(xiàng)數(shù)據(jù)所對應(yīng)的寫作模板。

  劉康舉了一個例子:“體育新聞報(bào)道要求欣賞到其中的細(xì)節(jié),因此Dreamwriter要把每一個點(diǎn)都打得很‘碎’,最后‘組合’起來。比如說報(bào)道奧運(yùn)會的跳水比賽,這是Dreamwriter表達(dá)最生動的一個范例。比賽中,每一個運(yùn)動員都一套專業(yè)得分,包含了走板、空中姿態(tài)、入水水花效果等。在Dreamwriter學(xué)習(xí)過程中,它把每一步的得分都打散了,在數(shù)據(jù)庫里隨意組合抓取,同時綜合賽事本身的規(guī)則,最終把這些分?jǐn)?shù)還原成一套表述。”

  2、把人從枯燥而繁瑣的工作中解放出來

  劉康指出Dreamwriter最初誕生時要解決的最核心的問題就是“財(cái)經(jīng)新聞的生產(chǎn)能力滿足不了內(nèi)容的需要”。據(jù)統(tǒng)計(jì),中國的金融市場平均每天發(fā)布大約1900篇公告,而這1900篇公告,一位資深證券編輯需要100個小時才能看完。Dreamwriter的意義便是解放了一大部分記者編輯的人力,讓他們不再花時間盯著公司財(cái)報(bào)和證監(jiān)會的網(wǎng)站,通過模板式的文章生產(chǎn)與數(shù)據(jù)抓取來為用戶供給這些信息。

  就目前來看,寫稿機(jī)器人能夠贏過人類記者,主要優(yōu)勢在兩個方面——“數(shù)量”和“效率”。和傳統(tǒng)媒體人相比,寫稿機(jī)器人可以瞬間完成海量閱讀、分析并根據(jù)互聯(lián)網(wǎng)活躍點(diǎn)擊量數(shù)據(jù),瞬時篩選出下一個熱點(diǎn)新聞,然后通過后臺算法快速合成新聞。總體來看,寫稿機(jī)器人在速度和數(shù)量上有著絕對優(yōu)勢。依靠海量數(shù)據(jù)和不斷演進(jìn)的算法設(shè)計(jì),生成一篇深度報(bào)道的時間已經(jīng)由最初的30秒縮短到2秒以內(nèi),其精確度還在不斷提升,而且擬人化、情感化的技能也在不斷增強(qiáng)。

  劉康把機(jī)器的優(yōu)勢歸納為“多、快、好、省”,善于處理數(shù)據(jù)、在海量信息中摸爬滾打等等,機(jī)器人的這些“天性”,使得他們不僅在處理涉及數(shù)據(jù)的新聞時更不易出錯,有時甚至還能成為抵制虛假信息的“打假斗士”。海量的新聞抓取,精準(zhǔn)的數(shù)據(jù)加工,實(shí)時監(jiān)控、快速報(bào)道,這些都是人類所無法輕易達(dá)到的。

  3、機(jī)器替代人?No,機(jī)器服務(wù)于人

  當(dāng)我們問劉康記者、編輯是否會失業(yè)時,他堅(jiān)決地予以否定,并講到:“機(jī)器服務(wù)于人才是未來的趨勢?!?/p>

  國外曾有一位資深商業(yè)記者與智能機(jī)器人進(jìn)行了一次“寫稿比賽”,雙方坐等一家公司出財(cái)報(bào),兩“人”同時開寫一篇短報(bào)道。最終結(jié)果,速度上機(jī)器人以2分鐘完稿大勝人類的7分鐘。質(zhì)量上,機(jī)器人的文章獲得912票支持,而記者的文章獲得了9916票的支持。

  “人們難以期望機(jī)器人會變換著語氣在采訪中進(jìn)行觀點(diǎn)交鋒,也不能指望它在鏡頭前隨機(jī)應(yīng)變或深入背街小巷明察暗訪。”曾有一位媒體從業(yè)者這樣說,新聞字里行間與鏡頭之下都包含著記者的判斷、價值觀與人文關(guān)懷。機(jī)器人寫手卻無法完全具備人的靈活性和創(chuàng)造力。

  究其根本,機(jī)器始終是機(jī)器,它并不具備和人一樣的思考能力,所有AI作品的完成都或多或少得到了人類的指點(diǎn),而人給的指點(diǎn)越少,AI的最終作品就越慘不忍睹。另一方面,機(jī)器寫稿的核心是利用大數(shù)據(jù)對信息進(jìn)行分析,然后套用固定算法進(jìn)行重新排列組合,再用人們能夠接受的或新聞報(bào)道要求的格式呈現(xiàn),這就造成了寫作模式固定,適用面窄。劉康也在采訪中提到目前應(yīng)用領(lǐng)域最多的為體育、天氣、財(cái)經(jīng)等資訊性較強(qiáng)的新聞報(bào)道,而人文社科類則有待進(jìn)一步開發(fā)。

AI替代內(nèi)容創(chuàng)作者?讓機(jī)器服務(wù)于人才是未來趨勢

  所以機(jī)器替代人在未來很長一段時間內(nèi)是不可能發(fā)生的事情,機(jī)器要取代的,只是機(jī)械式、無創(chuàng)造力的編輯工作。從這一角度出發(fā),劉康認(rèn)為記者和編輯以后會越來越有價值,因?yàn)閷I(yè)性更高,從業(yè)門檻也更高了。

  當(dāng)問及未來人與機(jī)器之間的關(guān)系,劉康作了一番暢想:“很有可能未來每個編輯都會配一個人工智能寫稿軟件,以幫助人來抓取熱點(diǎn)信息或解決掉繁瑣、重復(fù)、無創(chuàng)造力的工作,把人放在更高層級的工作上,讓機(jī)器幫助人提高工作效率?!?/p>

  或許正如北京師范大學(xué)新聞傳播學(xué)院執(zhí)行院長喻國明所說,隨著機(jī)器人寫稿能夠?qū)崿F(xiàn)在災(zāi)害、體育、財(cái)報(bào)等規(guī)格化新聞資訊的精確、迅捷發(fā)布,并對不同語言風(fēng)格的智能化學(xué)習(xí),未來新聞人應(yīng)該把精力重點(diǎn)放在機(jī)器人無法完成的調(diào)查性、深度解釋性報(bào)道上——聯(lián)系采訪對象,觀察對方,用心感受人物,再對大量資料進(jìn)行整理,做出取舍。

  新聞稿件的字里行間里都飽含著記者的判斷、價值觀與人文關(guān)懷,這都是機(jī)器所無法企及的。就如人民日報(bào)副總編輯盧新寧在2017年媒體融合發(fā)展論壇上所言:“作為記者,我為地震顫抖,但機(jī)器人不會?!?/p>