應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊個人注冊登錄

為什么說GDPR是人工智能的“緊箍咒”?

2018-06-25 16:07 財經(jīng)雜志

導(dǎo)讀:“因為GDPR(歐盟通用數(shù)據(jù)保護(hù)條例),我們在歐洲的新品發(fā)布已經(jīng)推遲了?!背鲩T問問創(chuàng)始人兼CEO李志飛告訴《財經(jīng)》記者。出門問問是中國一家人工智能(AI)創(chuàng)業(yè)公司,該公司基于AI技術(shù)生產(chǎn)諸如智能手表、智能音箱在內(nèi)的智能語音設(shè)備,2016年起產(chǎn)品已經(jīng)銷往歐美市場。

為什么說GDPR是人工智能的“緊箍咒”?

(2017年漢諾威科技展上,一位電視臺記者采訪一個機(jī)器人。圖/AFP)

  “因為GDPR(歐盟通用數(shù)據(jù)保護(hù)條例),我們在歐洲的新品發(fā)布已經(jīng)推遲了?!背鲩T問問創(chuàng)始人兼CEO李志飛告訴《財經(jīng)》記者。出門問問是中國一家人工智能(AI)創(chuàng)業(yè)公司,該公司基于AI技術(shù)生產(chǎn)諸如智能手表、智能音箱在內(nèi)的智能語音設(shè)備,2016年起產(chǎn)品已經(jīng)銷往歐美市場。

  不僅僅是出門問問,《財經(jīng)》記者獲悉,許多AI公司都正忙于聯(lián)合法律專家,基于GDPR條款,全面審查和調(diào)整自己的產(chǎn)品、服務(wù)乃至商業(yè)模式。

  GDPR全稱General Data Protection Regulation,號稱有史以來最為嚴(yán)格的數(shù)據(jù)保護(hù)法規(guī),歐盟于2018年5月25日正式實施。作為一項強(qiáng)制性法律,它保護(hù)的是自然人的“個人數(shù)據(jù)”,包括姓名、地址、生日、信用卡、銀行、醫(yī)療信息、位置信息、IP地址等等。

  這意味著,任何在歐盟設(shè)立機(jī)構(gòu)的企業(yè)或向歐盟境內(nèi)提供產(chǎn)品和服務(wù)的企業(yè),在處理歐盟境內(nèi)個人的數(shù)據(jù)時都受到GDPR的約束,除非放棄歐盟5億發(fā)達(dá)人口市場。

  如果違反GDPR,企業(yè)最高將面臨高達(dá)全球年營收4%或者2000萬歐元(約1.5億元人民幣)的巨額罰款(兩者取其高)。

  AI是一個極度依賴數(shù)據(jù)的行業(yè)??v觀AI落地全過程,從最初進(jìn)行AI算法模型的訓(xùn)練,到形成最終的AI產(chǎn)品或服務(wù),數(shù)據(jù)都是不可或缺的生產(chǎn)資料,這意味著GDPR對AI的約束貫穿AI整個生命周期。而且,不僅僅是AI公司,但凡使用AI算法去改造自身業(yè)務(wù)的公司都需要評估是否違反GDPR。

  《財經(jīng)》記者發(fā)現(xiàn),目前,“GDPR導(dǎo)致深度學(xué)習(xí)即將違法”等一些有失嚴(yán)謹(jǐn)?shù)挠^點(diǎn)廣為流傳,AI從業(yè)者在合規(guī)建設(shè)中普遍存在困惑。如何正確理解GDPR法律條款、評估可能的風(fēng)險,以及預(yù)測GDPR究竟會對歐盟內(nèi)外AI產(chǎn)業(yè)帶來什么樣的影響,成了當(dāng)務(wù)之急。

  “兩步走”界定個人數(shù)據(jù)

  GDPR由11章共99項條款組成,立法目的是在保護(hù)個人數(shù)據(jù)的前提下實現(xiàn)數(shù)據(jù)的價值。因此,企業(yè)首先要搞明白的問題就是:什么是個人數(shù)據(jù)?這并非看上去那么簡單明了,理解不當(dāng)有可能令企業(yè)未來陷入法律風(fēng)險。

  按照GDPR的規(guī)定,姓名、地址、生日、信用卡、IP地址等信息均屬于個人敏感信息,此外,揭示人種族、政治傾向、宗教和哲學(xué)信仰、基因數(shù)據(jù)和生物數(shù)據(jù)、甚至個人健康或者性生活的數(shù)據(jù)也都被明確說明屬于個人數(shù)據(jù),但現(xiàn)實中仍然存在一些令人困惑的數(shù)據(jù)類型,例如,語音數(shù)據(jù)、車牌號碼是否屬于個人數(shù)據(jù)?

  騰訊研究院專門研究數(shù)據(jù)保護(hù)法律法規(guī)的專家王融表示具體情況具體分析。GDPR規(guī)定對個人數(shù)據(jù)的定義很寬廣,能間接識別到特定自然人的數(shù)據(jù)也屬于個人數(shù)據(jù),在被保護(hù)的范疇內(nèi)。

  “如果一段語音結(jié)合其他信息能定位到特定的個人,那這段語音數(shù)據(jù)可視為個人數(shù)據(jù)。車牌號也是一樣,由于具有唯一性,在很多場景下都可以被識別,這也是為什么谷歌街景要把車牌號均抹去的原因,但公家車的車牌又不屬于個人信息,所以要結(jié)合具體場景進(jìn)行分析?!蓖跞谙颉敦斀?jīng)》記者解釋。

  AI公司使用的數(shù)據(jù)類型五花八門,如何判斷某類數(shù)據(jù)是否屬于個人數(shù)據(jù)?王融介紹了個“兩步走”的方法:第一步,判斷這一數(shù)據(jù)是否是由特定的個人產(chǎn)生;第二步看可識別性,能直接識別到個人自然無爭議,但要小心甄別“間接識別到個人”的情況。

  一旦界定手中擁有的數(shù)據(jù)為個人數(shù)據(jù),企業(yè)和機(jī)構(gòu)只能一一征求個人用戶的同意,并賦予個人用戶未來可以隨時撤回同意的權(quán)利,以及隨時要求相關(guān)機(jī)構(gòu)刪除其個人數(shù)據(jù)的權(quán)利。

  不過,為了與其他正當(dāng)利益達(dá)到平衡,GDPR列出了一些無需經(jīng)由個人用戶同意的場景。例如,為了公共利益或因官方權(quán)威要求而履行某項任務(wù),為了履行法律職責(zé)的需要,為了保護(hù)數(shù)據(jù)主體或另一個自然人的核心利益等。

  這意味著,公共機(jī)構(gòu)仍然可以在公共場合設(shè)置攝像頭,并利用人臉識別技術(shù)對潛在的恐怖分子進(jìn)行排查;醫(yī)療機(jī)構(gòu)發(fā)現(xiàn)大的疫情之后,也可以不經(jīng)當(dāng)事人同意處理個人數(shù)據(jù)。

  對于這一問題,我國行業(yè)標(biāo)準(zhǔn)《個人信息安全規(guī)范》(2018年5月1日生效)也做出了修正,詳細(xì)羅列了11項例外的情形,以保證數(shù)據(jù)的合理化使用。

  深度學(xué)習(xí)不合法?誤讀

  如果說對個人數(shù)據(jù)的理解不當(dāng)可能給AI公司帶來法律風(fēng)險,那對另一項條款的解讀正在讓一些AI從業(yè)者陷入過度的擔(dān)憂。

  該條款名為“自動決策的可解釋權(quán)”(The Right to Explanation of Automated Decision),多個接受《財經(jīng)》記者采訪的行業(yè)人士認(rèn)為,這是GDPR專門針對AI設(shè)立的條款。

  針對該條款,《終極算法》作者華盛頓大學(xué)教授Pedro Domingos在今年初發(fā)表驚人言論:自5月25日起,歐盟將會要求所有算法解釋其輸出原理,這意味著深度學(xué)習(xí)即將非法。

  人工智能早在上世紀(jì)50年代就作為獨(dú)立的學(xué)科存在,一直因為難以落地而長時間遇冷。最近幾年人工智能之所以再度時興,主要原因之一是出現(xiàn)了深度學(xué)習(xí)理論與技術(shù)。

  但深度學(xué)習(xí)目前在一定程度上仍是“黑盒子”,難以解釋具體的內(nèi)部邏輯。

  中國信息通信研究院云計算與大數(shù)據(jù)研究所副所長何寶宏曾分析稱,人們雖然利用深度學(xué)習(xí)構(gòu)建了神經(jīng)網(wǎng)絡(luò),但對神經(jīng)網(wǎng)絡(luò)表現(xiàn)出的一些“智能”還不能做出合理解釋,也事先無法預(yù)知學(xué)習(xí)的效果。

  “為了提高神經(jīng)網(wǎng)絡(luò)訓(xùn)練的效果,除了不斷增加網(wǎng)絡(luò)深度和節(jié)點(diǎn)數(shù)量、喂更多數(shù)據(jù)和增加算力,然后反復(fù)調(diào)整參數(shù),基本就沒別的招數(shù)了,而且,調(diào)參還像玄學(xué),并沒有總結(jié)出一套系統(tǒng)經(jīng)驗做指導(dǎo),完全依賴個人經(jīng)驗,甚至靠碰運(yùn)氣?!焙螌毢暾f。

  這也是為什么Domingos教授認(rèn)為GDPR提出的“可解釋權(quán)”會令深度學(xué)習(xí)陷入“非法”狀態(tài)。

  但王融告訴《財經(jīng)》記者:這種解讀并不嚴(yán)謹(jǐn)。

  這是因為,GDPR的正式條款中并沒有出現(xiàn)過所謂的“自動決策可解釋權(quán)”,只是在GDPR背景引言(Recital71)中闡述了:數(shù)據(jù)主體對于自動化決定不滿意時,可以要求人工干預(yù),并可以表達(dá)意見,獲取對相關(guān)自動化決定有關(guān)解釋。

  “按照歐洲立法慣例,立法的背景引言只是起到幫助如何理解條款的目的,自身并不具有法律效力?!蓖跞谡f。

  歐盟29條工作組實際于2017年10月專門明確澄清此問題:關(guān)于自動決策,數(shù)據(jù)控制者并不必然要解釋復(fù)雜的算法,對于用戶來說,只需要用盡可能簡單的方法告知其背后的基本邏輯或者標(biāo)準(zhǔn)即可。

  王融表示,歐盟立法者其實是在警惕“純自動算法”形成的“算法歧視”。目前確有些企業(yè)出于商業(yè)需要對人們進(jìn)行“數(shù)據(jù)畫像”,但畫像結(jié)果很可能對一些用戶形成了偏見,而企業(yè)此時往往以“我這是純算法,沒人干預(yù)”為由進(jìn)行自我辯駁,GDPR則賦予用戶權(quán)利去要求公司給出解釋。

  從這一角度來看,GDPR雖然沒有強(qiáng)制AI公司解釋算法,但AI公司未來仍然需要致力于解決AI的黑箱問題,因為并不排除在特定場景下,AI公司需要向監(jiān)管機(jī)構(gòu)對算法邏輯作出解釋。

  “這個解釋的尺度如何,目前沒有過去的案例可以參考,只有在執(zhí)行過程具體的判例中才可知曉?!迸餐髮W(xué)計算機(jī)系教授楊志榮對《財經(jīng)》記者說。

  對AI的可能影響

  因為GDPR,AI公司當(dāng)務(wù)之急是主動剔除不合規(guī)數(shù)據(jù),同時重新評估已有的算法模型。

  從合規(guī)角度而言,如果之前的AI模型是基于不合規(guī)數(shù)據(jù)訓(xùn)練而來,就應(yīng)該重新訓(xùn)練。不過,國內(nèi)一家知名AI公司技術(shù)負(fù)責(zé)人告訴《財經(jīng)》記者,一個AI模型一旦訓(xùn)練好,幾乎無法證明這個模型是從非法數(shù)據(jù)訓(xùn)練來的,所以很難要求模型提供商刪掉原有模型,去重新訓(xùn)練一個。

  盡管如此,AI公司仍然需要重新評估現(xiàn)有的算法模型。這是因為,無論是主動剔除不合規(guī)數(shù)據(jù),還是應(yīng)用戶要求刪除數(shù)據(jù),都將導(dǎo)致AI公司手里的數(shù)據(jù)量減少,而數(shù)據(jù)變少會影響算法準(zhǔn)確度,所以需要重新訓(xùn)練。

  就細(xì)分行業(yè)而言,語音交互AI公司受GDPR的影響較小,尤其比從事人臉識別的AI公司要小很多。

  語音交互解決方案公司思必馳市場總監(jiān)龍夢竹向《財經(jīng)》記者道出其中原委:語音研究都是基于特定場景,從網(wǎng)上下載的通用場景的語音數(shù)據(jù)沒有用,因此語音AI公司都是自己找人在專門的場景下錄制,或從專業(yè)數(shù)據(jù)公司購買,這都意味著拿到的數(shù)據(jù)已經(jīng)獲得了當(dāng)事人同意,數(shù)據(jù)源頭獲取就是合法的。

  長期看,GDPR對個人數(shù)據(jù)的嚴(yán)格保護(hù)將增加AI公司的數(shù)據(jù)獲取與處理成本。之前AI公司獲取數(shù)據(jù)的成本接近零,GDPR終結(jié)了這樣的“好時光”。

  對于公司來講,GDPR合規(guī)是一項系統(tǒng)、動態(tài)和長期的工作,需要增加一定的人力與財力的投入,并不是所有公司都能承擔(dān)這塊成本,多位行業(yè)人士向《財經(jīng)》記者表示,GDPR有可能延緩歐洲本土AI產(chǎn)業(yè)的發(fā)展速度,而一些中國AI公司因為無法承擔(dān)合規(guī)的成本,也可能放慢進(jìn)軍歐洲市場的腳步。

  但也有觀點(diǎn)認(rèn)為,隨著時間的消逝,這一塊的支出會逐步下降。Zoom.Ai的CEO Roy Pereira曾預(yù)測,兩年后AI公司將不會認(rèn)為數(shù)據(jù)支出是負(fù)擔(dān),也并不會阻礙創(chuàng)新。

  由于AI是一種技術(shù)可應(yīng)用于各個行業(yè),因此,不僅僅是專門的AI公司受影響,但凡利用AI使得自身業(yè)務(wù)更智能的公司也要做出調(diào)整。

  一位歐洲科技公司研發(fā)人員告訴《財經(jīng)》記者,目前AI在互聯(lián)網(wǎng)產(chǎn)品中的應(yīng)用比較廣泛,例如該公司計算產(chǎn)品用戶流失率,就是通過用戶的個人數(shù)據(jù)以及產(chǎn)品的使用數(shù)據(jù)日志,比如說每次點(diǎn)擊、互動,還有瀏覽,運(yùn)用機(jī)器學(xué)習(xí)模型,判斷如果用戶可能流失的話,再通過基于算法的精準(zhǔn)營銷投放 (例如通過廣告渠道再次對用戶投放廣告),來挽留用戶。

  “GDPR之前收集的數(shù)據(jù)都是比較多的,GDPR之后,客戶的隱私相關(guān)的敏感數(shù)據(jù)如性別、年齡、住址等都要下架,算法也要做修正。有一些來不及下架的,就需要暫停那個算法,調(diào)整合規(guī)之后再繼續(xù)使用?!鄙鲜鲅芯咳藛T說。

  GDPR的影響涉及到所有AI應(yīng)用公司。具體程度來說要看行業(yè),例如對產(chǎn)品中的客戶留存率只是一個準(zhǔn)確率下降,因為AI算法的應(yīng)用對這一類產(chǎn)品來說本來只是一個錦上添花的存在,所以整體看影響有限。

  但對AI算法依賴度更高的業(yè)務(wù)來說,影響就比較大。例如廣告公司通過AI算法來進(jìn)行廣告投放,投放精確度下降將對其影響很大,會造成客戶流失。此外,電商公司多通過AI算法推薦來增加銷售,也會受到比較大的影響。

  盡管GDPR為AI套上了一個“緊箍咒”,但是從業(yè)者普遍贊同,發(fā)展和應(yīng)用人工智能需要一個良好的環(huán)境,需要信任和責(zé)任,法律的監(jiān)管必不可少,GDPR作為史上最嚴(yán)數(shù)據(jù)保護(hù)法規(guī),正為這個 “緊箍咒”的監(jiān)管尺度做出有益探索。