應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

"達(dá)摩院"科學(xué)家周以真:用錯(cuò)大數(shù)據(jù)會(huì)有哪些惡?

2017-10-13 09:40 網(wǎng)易科技

導(dǎo)讀:演講中周以真教授就大數(shù)據(jù)倫理,提出了很多問題:使用不負(fù)責(zé)任的數(shù)據(jù)導(dǎo)致的偏見算法和嚴(yán)重后果,到底應(yīng)該由誰負(fù)責(zé)?個(gè)人和阿里巴巴這樣的企業(yè)應(yīng)該用什么樣的態(tài)度對(duì)待數(shù)據(jù)?

   在云棲大會(huì)的主論壇上,達(dá)摩院學(xué)術(shù)咨詢委員會(huì)十位科學(xué)家之一,美國(guó)哥倫比亞大學(xué)數(shù)據(jù)科學(xué)研究院主任周以真發(fā)表了演講—《Data for Good:Scary AI and Other Dangers with Big Data(永久的大數(shù)據(jù):可怕的人工智能以及大數(shù)據(jù)的威脅)》。在演講中,她針對(duì)大數(shù)據(jù)和人工智能可能帶來的威脅進(jìn)行了反思。

  演講中周以真教授就大數(shù)據(jù)倫理,提出了很多問題:使用不負(fù)責(zé)任的數(shù)據(jù)導(dǎo)致的偏見算法和嚴(yán)重后果,到底應(yīng)該由誰負(fù)責(zé)?個(gè)人和阿里巴巴這樣的企業(yè)應(yīng)該用什么樣的態(tài)度對(duì)待數(shù)據(jù)?以及我們?cè)撊绾斡每萍急旧肀WC科技的公平透明?

  演講中,她用FATES(命運(yùn))這個(gè)比喻的縮寫來講述了怎樣有責(zé)任的使用數(shù)據(jù),F(xiàn)是代表公平,A是可靠,T是透明,E是有道德,S是代表安全。

  “我要給大家敲一個(gè)警鐘,我們?cè)谑褂脭?shù)據(jù)過程當(dāng)中不負(fù)責(zé)任的話,會(huì)有什么樣的后果。”

 ?。ㄒ韵聻橹芤哉嫦嚓P(guān)演講的速記,略有刪改。)

  數(shù)據(jù)能夠帶來什么樣的好處,我這里分兩方面來說。

  第一方面,我們要有責(zé)任的使用數(shù)據(jù)。

  第二方面,我們要用數(shù)據(jù)來應(yīng)對(duì)社會(huì)巨大的問題,比如說能源、環(huán)境、教育、氣侯變化等等這些重大的人類命題。

  但是今天我只是會(huì)去談?dòng)胸?zé)任的使用數(shù)據(jù)這一個(gè)方面,因?yàn)槲覀兯腥硕际窃谑褂脭?shù)據(jù),我們?cè)谑褂脭?shù)據(jù)的目的,都是為了應(yīng)對(duì)社會(huì)的挑戰(zhàn)。我演講的目的,給大家敲一個(gè)警鐘,我們?cè)谑褂脭?shù)據(jù)過程當(dāng)中不負(fù)責(zé)任的話,會(huì)有什么樣的后果。

  我想用FATES(命運(yùn))這個(gè)比喻的縮寫來去講一下怎么有責(zé)任的使用,F(xiàn)是代表公平,A是可靠,T是透明,E是有道德,S是代表安全。

  有偏見的數(shù)據(jù)導(dǎo)致的問題,誰該負(fù)責(zé)任?

  首先來看一下數(shù)據(jù),我在給大家分享之前,先非常簡(jiǎn)單的講一下典型的算法和模式,我們?cè)谟么髷?shù)據(jù)為原料,進(jìn)行大數(shù)據(jù)計(jì)算的時(shí)候,涉及到的一些算法和模型。我們知道機(jī)器學(xué)習(xí)和形成一種模型,有這個(gè)模型,我可以再輸入新的數(shù)據(jù),這個(gè)新的數(shù)據(jù),經(jīng)過這個(gè)模型之后,有可能產(chǎn)生新的結(jié)果,之后我們可以來判斷和預(yù)計(jì),這個(gè)用戶有可能采購(gòu)哪些商品。

  我們知道數(shù)據(jù)和算法都可能是有偏見的,那么如果數(shù)據(jù)和算法是有偏見的話,那么我們的這個(gè)模型可能也會(huì)有偏見,那么我們的結(jié)果也會(huì)有偏見的。讓我們來看一個(gè)實(shí)例,那么這是幾年前我們看到兩個(gè)小偷,在美國(guó)的法官用了這種算法來決定判斷量刑過程當(dāng)中是否恰當(dāng),我們看到這些自主研發(fā)的算法,在法官當(dāng)中廣為流行的算法,用于幫助法官去判斷這些量刑。

  我發(fā)現(xiàn)他們對(duì)于黑人和白人量刑的結(jié)果是不同的,其實(shí)結(jié)果還不僅僅于此,我們?cè)谒惴ó?dāng)中有一些什么樣的問題,這個(gè)算法本身是有偏見的,而且哈佛大學(xué)學(xué)者研究出來,這些算法有可能是可以判斷的,又可能是錯(cuò)誤的,但不可能兩者兼具,實(shí)際上是不可能去判斷這個(gè)風(fēng)險(xiǎn)的分?jǐn)?shù)。

  第二個(gè)例子,這是我的這些同事做的項(xiàng)目,我的這些同事研究了在Google上的廣告,他們發(fā)現(xiàn)這些高薪的工作機(jī)會(huì)更多的會(huì)向男性網(wǎng)民展現(xiàn),女性網(wǎng)民看到這些高薪的招聘廣告機(jī)會(huì)會(huì)比較少,我們覺得這是不公平的?,F(xiàn)在我們就要去思考,這個(gè)模型是否是公正的,這些分類是否是公正的,我們?cè)趺礃觼泶_保,這個(gè)案例就引發(fā)了另外一個(gè)問題,那就是可靠性。

  說到底,出現(xiàn)問題的時(shí)候,我們應(yīng)該怪誰呢?

  好像這個(gè)問題很難找出一個(gè)好的答案,但是我們要有擔(dān)當(dāng),我們?cè)贗T界,我們是發(fā)明這些算法的人,我們是使用數(shù)據(jù)的人,我們是產(chǎn)生和收集這些數(shù)據(jù)的人,并且生成這些結(jié)果的人,我們要有擔(dān)當(dāng)。

  如果你是一家企業(yè),那么如果你是一個(gè)有責(zé)任的企業(yè),你應(yīng)該做什么,你首先可以把政策進(jìn)行公布,你的隱私政策進(jìn)行公布,而且你要遵守這些政策,如果有人違規(guī)的話,違反了這個(gè)政策,你就要去修補(bǔ)你的這個(gè)漏洞。

  我和的同事在微軟研究院所做的,我們會(huì)看一下在人們遵守這個(gè)公共政策的規(guī)模和程度是如何。這涉及到我們編程的語言,我們做成數(shù)據(jù)地圖,這個(gè)數(shù)據(jù)地圖每天晚上在微軟進(jìn)行運(yùn)行,幫我們找到我們政策上的漏洞,所以自動(dòng)化可以在這方面幫助我們,讓我們負(fù)起責(zé)任來,讓我們對(duì)于我們發(fā)布的政策負(fù)起責(zé)任來。

  152層的DNN如何保障其透明度?

  第三個(gè)關(guān)鍵詞是透明度。

  透明度現(xiàn)在是一個(gè)很大的問題,特別是我們涉及到這些深層的神經(jīng)網(wǎng)絡(luò)的時(shí)候,我們是否應(yīng)該對(duì)這個(gè)結(jié)果予以信任,我們?yōu)槭裁匆獙?duì)這個(gè)結(jié)果予以信任呢,我們都不知道怎么樣來運(yùn)作的,從這個(gè)科學(xué)的角度來說,我們其實(shí)并不了解他們是如何來工作的,那這樣的話,就會(huì)引起一些問題。

  在給大家舉例子之前,首先給大家介紹一下,我們最大的DNN(音),這是152層的DNN,那么它是獲得了2015年的Image.net的競(jìng)賽獎(jiǎng)項(xiàng),這里面我們可以看到這里的DNN一共有152層,大家問為什么是要152層,事實(shí)上我們不知道為什么是152層,結(jié)果就是如此,對(duì)于科學(xué)家來講,我們不僅僅滿足于這個(gè)答案,我們看這個(gè)DNN在什么情況下會(huì)出錯(cuò)。

  這個(gè)例子看出來,我們?yōu)槭裁词褂眠@個(gè)DNN的時(shí)候,做圖象識(shí)別的時(shí)候,要小心,這是一段視頻,在這個(gè)視頻當(dāng)中,我們可以看到,我們?cè)隈{駛車輛,我們開車的時(shí)候,可以看到有一個(gè)車速限速度的標(biāo)志,在右側(cè)可以看到,在右邊是停止的Stop的牌子,在左邊是涂鴉的限速45英里的牌子,這個(gè)DNN識(shí)別到在右側(cè)Stop的圖像。它認(rèn)為有了這個(gè)涂鴉的限速牌,不認(rèn)為這是一個(gè)限速牌,在開車不到一秒的時(shí)間里面,我們可以看到后面駕駛的車輛,開得很近的時(shí)候,發(fā)現(xiàn)涂鴉的這個(gè)標(biāo)牌也是Stop的標(biāo)牌,但是看見的時(shí)候已經(jīng)太遲了,他覺得這個(gè)時(shí)候要?jiǎng)x車已經(jīng)來不及了,這時(shí)候就有可能發(fā)生撞車的事故。

  現(xiàn)在不光是熊貓、猴子,還有剛才我們所提的這樣一些例子,這個(gè)就是大家可以看到的,如果我們對(duì)于這個(gè)DNN怎樣工作的原理不清楚的話,就會(huì)潛在的造成一些威脅。

  我們?cè)賮砜匆粋€(gè)例子。我們可以看到奧巴馬在同樣一個(gè)音軌,同樣的話,用四種語音語段發(fā)出來,這是一個(gè)Youtube上面比較好玩的事情。對(duì)于這樣一個(gè)音頻流,你可以知道任何人都可以模擬任何人的發(fā)音,這樣就會(huì)產(chǎn)生威脅。

  阿里巴巴這樣的大公司應(yīng)該怎么做?

  這不單會(huì)產(chǎn)生技術(shù)問題,也不是寫論文的問題,應(yīng)該說這是一個(gè)實(shí)實(shí)在在的,對(duì)于大公司,比方說像阿里巴巴這樣的大公司,正在努力致力于研究解決的這樣一些問題。歐盟也有這樣的政策,2018年所有大的公司,都要遵守這樣的一個(gè)有關(guān)于數(shù)據(jù)方面的問題的法規(guī)章程,不然的話,你就會(huì)被罰款或者說有4%這樣的營(yíng)業(yè)收入就要來交營(yíng)業(yè)罰款。

  這里有四個(gè)標(biāo)準(zhǔn),一個(gè)是可訪問的權(quán)利,一個(gè)是可忘卻的權(quán)力,一個(gè)是數(shù)據(jù)的可攜帶性,還有可解釋的權(quán)利,2017年到2018年之間,科學(xué)家正在致力于了解深度學(xué)習(xí)到底是怎么樣來進(jìn)行工作的,要能夠解釋得清,這是一個(gè)倫理的問題。

  這里面我們可以看到,這里是一個(gè)列車的問題,我們可以看到這里面一輛列車開過來,扳這里有一個(gè)選擇,到底是通過扳道,是往上面的通道走還是往下面的通道走,下面可能是小孩子或者說肥胖的人,不管是把道路往哪個(gè)方向搬,這都會(huì)牽涉到倫理方面的難題。那么現(xiàn)在有了我們這個(gè)自動(dòng)駕駛車,必須要做這樣的決定,比方說在碰到類似情況的時(shí)候,這個(gè)車應(yīng)該做什么樣的決斷。比方說在右邊有一個(gè)行人,但是這個(gè)人比方說在人行道上面也有其他的人,這個(gè)車躲避的話,到底是躲避誰,撞上什么,這是很難下的決定。

  這是一個(gè)假新聞的問題,那么假新聞現(xiàn)在也在美國(guó)到處肆虐,這里應(yīng)該說假新聞泛濫,造成了很多的問題,我們大家看到微軟有這樣一個(gè)例子,一個(gè)聊天機(jī)器人,叫做小兵,這個(gè)聊天機(jī)器人是如此的流行,以至于在美國(guó),我們有一點(diǎn)嫉妒,你們中國(guó)有這樣的很好的聊天機(jī)器人,在美國(guó)還沒有這么好的聊天機(jī)器人,去年微軟也有了這么一個(gè)聊天機(jī)器人。

  我們?cè)?4小時(shí)之內(nèi),不得不把這個(gè)聊天機(jī)器人關(guān)閉了,為什么呢?因?yàn)槲覀兛吹接捎诨ヂ?lián)網(wǎng)之間有一些陰暗面的存在,很快我們發(fā)現(xiàn)聊天機(jī)器人被誘導(dǎo),引導(dǎo)說一些很不好聽的話題,這里面我們才認(rèn)識(shí)到互聯(lián)網(wǎng),這里面也有一些快速傳播的不良信息,我們要非常重視倫理道德,我們?cè)谠O(shè)計(jì)的時(shí)候就要注意,而不是在運(yùn)用的時(shí)候。

  還有一個(gè)例子是關(guān)于安全和保密的事情,例如天貓精靈,在你家或者車?yán)?,很容易被黑客侵入,所以物?lián)網(wǎng)這樣的平臺(tái),如果說連到互聯(lián)網(wǎng)這樣任何的物品,很容易被壞人所侵入,這樣就會(huì)造成一些影響。

  如何用科技保證科技本身的公平透明?

  回過頭來再看一下縮寫拼出的詞,F(xiàn)ATEC代表公平、透明等等,在這方面,科技能夠做哪些工作呢?

  我們可以看到剛才所說的,應(yīng)該要產(chǎn)出各種可能性,有各種各樣的模式模板,所以我們要讓第三方別人能夠來檢查我們這樣的一些產(chǎn)品,同樣的道理,比如說給他們提供這樣一些資料和數(shù)據(jù),我和我的兩個(gè)同事也寫過一篇論文,大家有興趣的話,也可以閱讀一下,比方說你的數(shù)據(jù)誰在掌握,我們現(xiàn)在有很多這樣的科技公司,可以看到這樣一些科技公司都是盡量在確保想要把人工智能、數(shù)據(jù)往好的方面運(yùn)用。

  比如說亞馬遜、深度思考,包括蘋果、IBM、Google、臉書等等機(jī)構(gòu),現(xiàn)在都有更多的機(jī)構(gòu)和個(gè)人,都加入進(jìn)來。人工智能能夠造福人類,但是我們?cè)诳萍冀鐟?yīng)該承擔(dān)這樣的責(zé)任,能夠確保往好的方面來發(fā)展,我們現(xiàn)在也有一些新的問題。

  我們現(xiàn)在已經(jīng)對(duì)機(jī)器人有相關(guān)的立法,對(duì)人工智能是否也要立法,那么人工智能是不是也要進(jìn)行很好的管制,包括這樣一些平臺(tái),包括一些使用,人工智能的這樣一些管道,是否也應(yīng)該進(jìn)行管制呢,如果要管制的話,是由誰來管制呢,我們是否要有一個(gè)消費(fèi)者保護(hù),有一個(gè)保險(xiǎn),還有比方說一些經(jīng)濟(jì)上面的獎(jiǎng)勵(lì),以避免這樣一些人工智能不良的應(yīng)用。

  包括我們所有的產(chǎn)品是否需要有一個(gè)授權(quán)許可,公司是否也需要有這樣一個(gè)委員會(huì)專門來進(jìn)行檢查和審核。所以我們對(duì)于這個(gè)數(shù)據(jù)有一個(gè)負(fù)責(zé)任的態(tài)度來使用,才能夠物盡其用。