技術(shù)
導(dǎo)讀:據(jù)國(guó)外媒體Fast Company報(bào)道,借助一項(xiàng)機(jī)器學(xué)習(xí)算法,研究人員能夠分析一個(gè)人的手寫英文文本,進(jìn)而判斷書寫者是否來(lái)自五個(gè)不同的國(guó)家中的一個(gè):馬來(lái)西亞、伊朗、中國(guó)、印度和孟加拉國(guó)。
據(jù)國(guó)外媒體Fast Company報(bào)道,借助一項(xiàng)機(jī)器學(xué)習(xí)算法,研究人員能夠分析一個(gè)人的手寫英文文本,進(jìn)而判斷書寫者是否來(lái)自五個(gè)不同的國(guó)家中的一個(gè):馬來(lái)西亞、伊朗、中國(guó)、印度和孟加拉國(guó)。
研究人員創(chuàng)建了一個(gè)來(lái)自這些國(guó)家的100人的數(shù)據(jù)集,讓他們用英語(yǔ)書寫,總共寫了500行。對(duì)于這些手寫字,一種名為Cloud of Line Distribution(簡(jiǎn)稱COLD)的工具可以對(duì)一個(gè)個(gè)的字母進(jìn)行分析,估量字跡的直線度或彎曲度。該算法在判斷書寫者的國(guó)籍方面比現(xiàn)有的方法更加出色,對(duì)一些國(guó)家的預(yù)測(cè)準(zhǔn)確性甚至高出了一倍多。
該算法所做的正是機(jī)器學(xué)習(xí)技術(shù)最擅長(zhǎng)的事情:發(fā)現(xiàn)模式。例如,當(dāng)來(lái)自中國(guó)的書寫者使用羅馬字母時(shí),他們會(huì)用更直的線條來(lái)書寫字母,因?yàn)闈h字通常是用直的筆畫組合而成的。另一方面,來(lái)自印度和孟加拉國(guó)的書寫者所寫的字母則相對(duì)彎曲,因?yàn)樗麄儑?guó)家的字體大多數(shù)都是彎曲的,形狀比較圓。
識(shí)別筆跡是計(jì)算機(jī)視覺(jué)研究人員最先處理的任務(wù)之一。之前的研究試圖辨別書寫者的情感,判斷其性別和年齡,但除此之外,并沒(méi)有多少研究是試圖從筆跡中梳理出更多的信息,這可能是因?yàn)闆](méi)有人找到將這種技術(shù)變現(xiàn)的辦法。
來(lái)自印度、中國(guó)和馬來(lái)西亞的研究人員認(rèn)為,這項(xiàng)技術(shù)會(huì)有助于犯罪調(diào)查。警方越來(lái)越多地借助生物識(shí)別技術(shù)來(lái)處理犯罪問(wèn)題,從筆跡中提取有用信息或許可以給人臉識(shí)別軟件等其它的技術(shù)帶來(lái)補(bǔ)充。
但是,他們沒(méi)有解決這類技術(shù)和類似技術(shù)應(yīng)用可能會(huì)帶來(lái)的隱私或民權(quán)問(wèn)題。例如,放大訓(xùn)練數(shù)據(jù)庫(kù)原有的偏見(jiàn)的錯(cuò)誤,可能會(huì)使得刑事調(diào)查牽連到無(wú)辜的人。又或者,企業(yè)可以利用筆跡識(shí)別軟件,來(lái)根據(jù)某人的國(guó)籍、甚至智力等特征歧視潛在的客戶。
然而,在執(zhí)法部門考慮使用它之前,研究人員必須擴(kuò)張他們所使用的小型數(shù)據(jù)集,來(lái)證明COLD不僅僅是一個(gè)有趣的項(xiàng)目。