技術(shù)
導(dǎo)讀:隱私數(shù)據(jù)泛濫短期內(nèi)降低了人工智能的開發(fā)門檻,讓算法的設(shè)計(jì)實(shí)現(xiàn)更加簡單,但這以數(shù)據(jù)所有權(quán)的粗暴剝奪和算法濫用為代價(jià),不可能是長久之計(jì)。
11月21日《金融時(shí)報(bào)》刊出李開復(fù)先生寫的一篇文章《中國搞21世紀(jì)數(shù)字經(jīng)濟(jì)的條件比美國有利》,文中談到,中國人已開始在智慧城市開展大數(shù)據(jù)收集工作,公民的隱私當(dāng)然會(huì)受到損害,但算法也將因此變得更加豐富。
中國政府善于——借用馬克·扎克伯格的話來說——“快速行動(dòng),破除陳規(guī)”。巨大的消費(fèi)市場,以及持續(xù)的增長潛力,將使中國有可能發(fā)展出一套頗具經(jīng)濟(jì)效益且獨(dú)立于西方的數(shù)字生態(tài)系統(tǒng)……
此文令筆者驚詫莫名。李開復(fù)先生是IT與互聯(lián)網(wǎng)行業(yè)的意見領(lǐng)袖,前Google公司中國區(qū)總經(jīng)理,更是互聯(lián)網(wǎng)創(chuàng)業(yè)投資行業(yè)的領(lǐng)軍人物。對(duì)于數(shù)字化與人工智能的發(fā)展,李先生應(yīng)該有比絕大部分IT與互聯(lián)網(wǎng)人士更加深刻的洞察。但認(rèn)為公民隱私數(shù)據(jù)濫用會(huì)推動(dòng)人工智能和相關(guān)的算法演進(jìn),中國因此比美國更有利于發(fā)展數(shù)字經(jīng)濟(jì),卻是一種片面與短視的認(rèn)識(shí),必須加以澄清。
弱人工智能時(shí)代的數(shù)據(jù)污染
人工智能作為一種最新的信息技術(shù)手段,核心就是通過模仿人類的學(xué)習(xí)過程,以海量數(shù)據(jù)對(duì)于特定的復(fù)雜數(shù)學(xué)模型(如神經(jīng)網(wǎng)絡(luò))進(jìn)行訓(xùn)練,通過數(shù)學(xué)模型的逐步優(yōu)化,建立包含智能化業(yè)務(wù)規(guī)則的系統(tǒng)并加以實(shí)用。
現(xiàn)階段的人工智能是弱人工智能,其特點(diǎn)是:1.單一模型只能針對(duì)特定應(yīng)用;2.需要海量的正確數(shù)據(jù)進(jìn)行模型訓(xùn)練;3.產(chǎn)生的智能化業(yè)務(wù)規(guī)則可解釋性極差。
換句話說,一個(gè)弱人工智能系統(tǒng)就是一個(gè)專用的無法打開的黑盒子,既沒有高適應(yīng)性,也無法拆解出具體的智能化業(yè)務(wù)規(guī)則,而且高度依賴于參與訓(xùn)練的海量數(shù)據(jù)。
從目前的業(yè)務(wù)實(shí)踐來看,構(gòu)建人工智能系統(tǒng),絕大部分工作是數(shù)據(jù)準(zhǔn)備,包括設(shè)計(jì)數(shù)據(jù)、獲取數(shù)據(jù)、清洗數(shù)據(jù)和整合數(shù)據(jù)等步驟。這部分工作平均要花費(fèi)60%-70%的時(shí)間。對(duì)于大型的人工智能系統(tǒng),一般會(huì)安排專門的數(shù)據(jù)工程師按照數(shù)據(jù)科學(xué)家的要求進(jìn)行數(shù)據(jù)準(zhǔn)備。
在弱人工智能發(fā)展階段,人工智能系統(tǒng)高度依賴于海量數(shù)據(jù)訓(xùn)練,并且算法本身對(duì)錯(cuò)誤數(shù)據(jù)幾乎沒有甄別能力。
數(shù)據(jù)作為整個(gè)人工智能產(chǎn)業(yè)鏈的最上游,數(shù)據(jù)的任何問題都有可能影響到人工智能的產(chǎn)業(yè)鏈中下游甚至最終的全面應(yīng)用。
試想一下,如果支撐人工智能的關(guān)鍵數(shù)據(jù)來源是灰色的甚至是黑色的,這就意味著從源頭開始的數(shù)據(jù)采集、處理、傳遞和數(shù)據(jù)質(zhì)量管理就處于失控狀態(tài)。
數(shù)據(jù)使用者無法通過追溯的方式了解數(shù)據(jù)本身的采集要求,更不可能通過提高數(shù)據(jù)源數(shù)據(jù)質(zhì)量的方式訓(xùn)練出更加高質(zhì)量的模型。在很多場景下,來源不明的數(shù)據(jù)甚至無法手工剔除錯(cuò)誤,以避免對(duì)模型訓(xùn)練的干擾。
如果非法數(shù)據(jù)的提供方出于某些目的對(duì)數(shù)據(jù)進(jìn)行特定方向的加工處理,并提供給人工智能企業(yè),那基于這些數(shù)據(jù)訓(xùn)練出的模型就可能受到特定方向的誤導(dǎo),造成模型畸形,未來的全面應(yīng)用就有可能會(huì)面臨極大風(fēng)險(xiǎn)。
盡管目前還沒有這樣的案例出現(xiàn),但從理論上來分析,這是完全可能的,非法數(shù)據(jù)來源正在為人工智能應(yīng)用埋下未知風(fēng)險(xiǎn)。
對(duì)于中小企業(yè)的人工智能應(yīng)用,數(shù)據(jù)污染和算法畸形可能不會(huì)造成嚴(yán)重后果,畢竟應(yīng)用范圍有限。但對(duì)于涉及國計(jì)民生或者是對(duì)市場有重大影響的行業(yè),嚴(yán)控訓(xùn)練數(shù)據(jù)來源、數(shù)據(jù)質(zhì)量,是企業(yè)和政府必須考慮的問題。
2016年10月美國國家科技委員會(huì)公布的《美國國家人工智能研究和發(fā)展戰(zhàn)略計(jì)劃》中有七大戰(zhàn)略計(jì)劃,第五個(gè)就是開發(fā)用于人工智能培訓(xùn)及測試的公共數(shù)據(jù)集和環(huán)境。
這份戰(zhàn)略計(jì)劃中談到,政府將開發(fā)滿足多樣化人工智能興趣與應(yīng)用的豐富數(shù)據(jù)集,并開放滿足商業(yè)和公共利益的訓(xùn)練測試資源,以支持企業(yè)在豐富健康的大數(shù)據(jù)環(huán)境下加速人工智能技術(shù)發(fā)展,規(guī)避數(shù)據(jù)缺陷本身帶來的潛在風(fēng)險(xiǎn)。
播灑跳蚤,收獲的絕對(duì)不會(huì)是巨龍。不合法不健康缺乏管控的大數(shù)據(jù)基礎(chǔ),很難構(gòu)建出有強(qiáng)大競爭力的人工智能產(chǎn)業(yè)環(huán)境。那些認(rèn)為損害隱私會(huì)帶來算法提升乃至獲得數(shù)字經(jīng)濟(jì)競爭優(yōu)勢的想法是片面的、短視的。
隱私濫用動(dòng)搖數(shù)據(jù)基礎(chǔ)
盜版音樂從根本上動(dòng)搖了音樂產(chǎn)業(yè)的價(jià)值鏈,對(duì)音樂產(chǎn)業(yè)的生產(chǎn)環(huán)節(jié)是毀滅性的打擊,這個(gè)道理也適用于人工智能和數(shù)據(jù)生產(chǎn)的關(guān)系。
對(duì)于人工智能應(yīng)用來說,數(shù)據(jù)絕不是俯首可得的,這需要一個(gè)健康的產(chǎn)業(yè)環(huán)境,從數(shù)據(jù)收集、數(shù)據(jù)清洗、數(shù)據(jù)匹配到數(shù)據(jù)集成。一個(gè)廣泛應(yīng)用的人工智能應(yīng)用往往要牽涉到多個(gè)產(chǎn)業(yè)的數(shù)據(jù)合作,這也是數(shù)據(jù)服務(wù)提供商存在的基礎(chǔ)。
數(shù)據(jù)服務(wù)商獲取合法的數(shù)據(jù),以脫敏操作為前提進(jìn)行數(shù)據(jù)整合,并按照所服務(wù)企業(yè)的要求提供數(shù)據(jù)和分析,最終獲得自身的良性發(fā)展。
所謂數(shù)據(jù)脫敏,是對(duì)某些敏感信息通過脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)。在涉及客戶安全數(shù)據(jù)或者一些商業(yè)性敏感數(shù)據(jù)的情況下,在不違反系統(tǒng)規(guī)則條件下,對(duì)真實(shí)數(shù)據(jù)進(jìn)行改造并提供測試使用,如身份證號(hào)、手機(jī)號(hào)、卡號(hào)等個(gè)人信息都需要進(jìn)行數(shù)據(jù)脫敏。
低價(jià)劣質(zhì)的私鹽泛濫,正規(guī)的鹽業(yè)市場一定會(huì)萎縮。如果隱私數(shù)據(jù)泛濫,數(shù)據(jù)服務(wù)行業(yè)就會(huì)受到沉重的打擊。
有了近乎免費(fèi)的數(shù)據(jù)資源,沒有人再愿意為數(shù)據(jù)支付合理的價(jià)格。數(shù)據(jù)產(chǎn)業(yè)最前端的數(shù)據(jù)準(zhǔn)備和整合環(huán)節(jié)不再能夠得到合理的收益,費(fèi)力卻沒有回報(bào)的數(shù)據(jù)基礎(chǔ)性工作就始終無法健康發(fā)展,最終動(dòng)搖整個(gè)數(shù)據(jù)產(chǎn)業(yè)良性發(fā)展的基礎(chǔ)。
當(dāng)真正需要使用數(shù)據(jù)的企業(yè)在市場上茫然四顧,發(fā)現(xiàn)數(shù)據(jù)準(zhǔn)備和整合的工作必須要自己從頭做起,我不知道這算是什么數(shù)字化的競爭優(yōu)勢!
整合善用才是關(guān)鍵
在IT和互聯(lián)網(wǎng)專業(yè)人士眼中的大數(shù)據(jù),尤其是推動(dòng)整個(gè)數(shù)字化社會(huì)層面的大數(shù)據(jù),有更加寬廣的范疇。隱私數(shù)據(jù)只是大數(shù)據(jù)藍(lán)圖中的小小一塊拼圖。要讓社會(huì)全面進(jìn)入數(shù)字化發(fā)展階段,跨行業(yè)、跨企業(yè)、政企融合后的數(shù)據(jù)才是構(gòu)建數(shù)字化社會(huì)堅(jiān)實(shí)的基礎(chǔ)。
發(fā)達(dá)國家的數(shù)據(jù)收集工作開展得并不晚,恰恰相反,政府和企業(yè)內(nèi)部的數(shù)據(jù)收集與管理工作開展得更早,管理模式也更加成熟。
以社會(huì)運(yùn)行數(shù)據(jù)為例,在美國和加拿大,企業(yè)可以很容易地從政府?dāng)?shù)據(jù)庫中獲得特定的統(tǒng)計(jì)和運(yùn)營數(shù)據(jù)。
筆者以數(shù)據(jù)科學(xué)家的身份在加拿大某零售企業(yè)工作時(shí),經(jīng)常會(huì)訪問政府?dāng)?shù)據(jù)庫提供的脫敏后的人口地理信息數(shù)據(jù),涵蓋了年齡、性別、收入、種族、家庭結(jié)構(gòu)等各種信息,其細(xì)致程度令人驚嘆。
因?yàn)閿?shù)據(jù)管理科學(xué)有序,所以政府與企業(yè)在展開數(shù)據(jù)合作時(shí)障礙更少,更能夠發(fā)揮數(shù)據(jù)整合的威力。
早在十幾年前,加拿大就已經(jīng)出現(xiàn)了采集大量客戶數(shù)據(jù)對(duì)社會(huì)消費(fèi)特征進(jìn)行整體畫像的企業(yè)。這些數(shù)據(jù)收集和分析企業(yè)根據(jù)廣泛收集的跨行業(yè)客戶信息,把全國居民細(xì)分為68個(gè)子類,并對(duì)每個(gè)子類進(jìn)行畫像,抽取其消費(fèi)特征和潛在需求,為零售、金融、通信等各個(gè)面向消費(fèi)者服務(wù)的企業(yè)所用。目前,中國廣泛收集與分析數(shù)據(jù)的能力還非常缺乏。
從事人工智能研究的人都知道,模型訓(xùn)練優(yōu)化時(shí)某一區(qū)域內(nèi)局部的最優(yōu)解,并不等于整體范圍的最優(yōu)解。一個(gè)好的模型會(huì)在全局范圍內(nèi)搜尋最優(yōu)解,而不只局限于一時(shí)一地的范圍進(jìn)行搜尋。
數(shù)據(jù)獲取和數(shù)據(jù)使用管控作為數(shù)字化的初始環(huán)節(jié),應(yīng)該納入到對(duì)數(shù)字化社會(huì)發(fā)展的整體影響中去分析。
的確,隱私數(shù)據(jù)泛濫會(huì)讓人工智能企業(yè)建立的門檻降低,算法的設(shè)計(jì)實(shí)現(xiàn)更加簡單,短時(shí)間內(nèi)似乎能讓一切更加容易。但這些門檻的降低是以數(shù)據(jù)所有權(quán)的粗暴剝奪和算法濫用為代價(jià)的。長遠(yuǎn)來看,數(shù)據(jù)管理失控和算法濫用因?yàn)閺脑搭^上污染了數(shù)字化產(chǎn)業(yè)的生態(tài)環(huán)境,所以會(huì)拖累整個(gè)數(shù)字化與人工智能產(chǎn)業(yè)的發(fā)展。
通過吸毒能夠獲取比正常生活高幾倍十幾倍的快感,可一旦染上毒癮,你還能回到正常的生活軌跡上嗎?絕大多數(shù)人是不行的,對(duì)于企業(yè)也是一樣。當(dāng)企業(yè)通過非法途徑獲得隱私數(shù)據(jù)并取得超出預(yù)期的優(yōu)化效果,它還能夠回到正常的模型優(yōu)化道路上來嗎?難度和癮君子戒毒一樣。
如果沒有科學(xué)的數(shù)據(jù)管理框架指導(dǎo),也缺乏嚴(yán)格的法律保護(hù)體系支撐,人工智能技術(shù)的全面應(yīng)用,帶來的很有可能會(huì)是披著高科技外衣的數(shù)字化掠奪,而不是全體公民受益的數(shù)字化社會(huì)進(jìn)步。
不忘初心,方得始終。在數(shù)字化和人工智能產(chǎn)業(yè)發(fā)展的初期,擺正姿態(tài),警惕旁門左道,才是持續(xù)穩(wěn)定健康的產(chǎn)業(yè)發(fā)展正途。
(作者為科技與互聯(lián)網(wǎng)資深分析師)
(本文首刊于2017年12月11日出版的《財(cái)經(jīng)》雜志)