導(dǎo)讀:在我們的日常生活中隨處都有計算機視覺技術(shù),從手機游戲機可以識別您的手勢,可以自動將焦點放在人身上等。計算機視覺正在影響我們生活的許多領(lǐng)域。
計算機視覺的演變
在我們的日常生活中隨處都有計算機視覺技術(shù),從手機游戲機可以識別您的手勢,可以自動將焦點放在人身上等。計算機視覺正在影響我們生活的許多領(lǐng)域。
事實上,計算機視覺在商業(yè)和國防中使用方面有悠久的歷史??梢栽诟鞣N光譜范圍內(nèi)感測光波的光學(xué)傳感器被部署在許多應(yīng)用中:如制造中的質(zhì)量檢測,環(huán)境管理的遙感或在戰(zhàn)場上收集智能的高分辨率相機。這些傳感器中的一些是靜止的,而其它傳感器連接到諸如衛(wèi)星,無人機和車輛是在移動物體上。
在過去,許多計算機視覺應(yīng)用程序僅限于某些封閉平臺。當(dāng)與IP連接技術(shù)相結(jié)合時,他們創(chuàng)建了一組新的應(yīng)用程序計算機視覺,加上IP連接,高級數(shù)據(jù)分析和人工智能,將成為彼此的催化劑,從而在物聯(lián)網(wǎng)(IoT)創(chuàng)新和應(yīng)用方面帶來革命性的飛躍。
推動計算機視覺的多領(lǐng)域的進步
視覺環(huán)境設(shè)計
視覺或視力是五種人類感覺中最發(fā)達的。我們每天都用它來識別我們的朋友,在我們的路上發(fā)現(xiàn)障礙,完成任務(wù)和學(xué)習(xí)新事物。我們通過我們的視覺來識別我們周圍的環(huán)境。有路牌和信號燈幫助我們從一個地方到另一個地方。通過識別環(huán)境標(biāo)識找到我們所要到達的地方。鑒于視覺的重要性,將其擴展到計算機和自動化系統(tǒng),實現(xiàn)了視覺應(yīng)用大飛躍。
什么是計算機視覺
計算機視覺從捕獲和存儲圖像或一組圖像的技術(shù)開始,然后將這些圖像轉(zhuǎn)換成可以進一步執(zhí)行的信息。它由多種技術(shù)組合(圖1)組成。計算機視覺工程是一個跨學(xué)科領(lǐng)域,需要在許多這些技術(shù)中跨職能和系統(tǒng)專長。
例如,Microsoft Kinect使用3D計算機圖形算法來實現(xiàn)計算機視覺來分析和理解三維場景。它允許游戲開發(fā)人員將實時全身運動捕捉與人造3D環(huán)境進行合并。除了游戲,這在機器人,虛擬現(xiàn)實(VR)和增強現(xiàn)實(AR)應(yīng)用等領(lǐng)域開辟了新的可能性。
傳感器技術(shù)的進步也在傳統(tǒng)攝像機傳感器以外的許多層面迅速發(fā)展。 最近的一些例子包括:
•紅外傳感器和激光器結(jié)合起來感測深度和距離,這是自駕車和3D地圖應(yīng)用的關(guān)鍵推動因素之一
•非侵入式傳感器,可跟蹤醫(yī)療患者的生命體征,無需身體接觸
•高頻攝像機可以捕捉人眼不能察覺的微妙動作,以幫助運動員分析其步態(tài)
•超低功耗和低成本的視覺傳感器,可長期部署在任何地方
圖1.由多個領(lǐng)域的進步驅(qū)動的計算機視覺
計算機視覺獲得智能
早期應(yīng)用
監(jiān)控行業(yè)是圖像處理技術(shù)和視頻分析的早期采用者之一。視頻分析是計算機視覺的一個特殊用例,重點是從小時的視頻中找到模式。在現(xiàn)實情況下自動檢測和識別預(yù)定義模式的能力代表了數(shù)百種用例的巨大市場機會。
第一個視頻分析工具使用手工算法來識別圖像和視頻中的特定功能。它們在實驗室設(shè)置和模擬環(huán)境中都是準(zhǔn)確的。然而,當(dāng)輸入數(shù)據(jù)(如照明條件和攝像機視圖)偏離設(shè)計假設(shè)時,性能迅速下降。
研究人員和工程師花費了多年的開發(fā)和調(diào)優(yōu)算法,或者用新的方法來處理不同的條件。然而,使用這些算法的相機或錄像機仍然不夠穩(wěn)健。盡管多年來取得了一些進步,但現(xiàn)實世界的糟糕表現(xiàn)限制了技術(shù)的有用性和應(yīng)用。
深入學(xué)習(xí)突破
近年來,深度學(xué)習(xí)算法的出現(xiàn)激發(fā)了計算機視覺。深入學(xué)習(xí)使用人造神經(jīng)網(wǎng)絡(luò)(ANN)算法,模擬人腦神經(jīng)元。
從2010年初開始,由圖形處理單元(GPU)加速的計算機性能已經(jīng)越來越強大,足以使研究人員實現(xiàn)復(fù)雜ANN的功能。此外,部分由視頻站點和普遍的IoT設(shè)備驅(qū)動,研究人員擁有大量不同的視頻和圖像數(shù)據(jù)庫來訓(xùn)練其神經(jīng)網(wǎng)絡(luò)。
在2012年,稱為卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深層神經(jīng)網(wǎng)絡(luò)(DNN)的版本顯示了精確度的巨大飛躍。這一發(fā)展推動了計算機視覺工程領(lǐng)域的興趣和興奮?,F(xiàn)在,在需要圖像分類和面部識別的應(yīng)用中,深度學(xué)習(xí)算法甚至超過了人類對應(yīng)物。更重要的是,就像人類一樣,這些算法具有學(xué)習(xí)和適應(yīng)不同條件的能力。
場景的語義表示
圖2.場景的語義表示
深入學(xué)習(xí),我們正在進入一個認(rèn)知技術(shù)的時代,電腦視覺和深度學(xué)習(xí)融合在一起,解決人腦大腦層面的高層次,復(fù)雜問題(圖2)。我們正在抓住可能的表面。這些系統(tǒng)將繼續(xù)改進,使用更快的處理器,更先進的機器學(xué)習(xí)算法和更深入的集成到邊緣設(shè)備。計算機視野將改變物聯(lián)網(wǎng)。
計算機視覺應(yīng)用案例:
•監(jiān)測作物健康的農(nóng)業(yè)無人機(圖3)
•交通基礎(chǔ)設(shè)施管理
•無人機無人機檢查
•下一代家庭安全攝像機
圖3.無人機收集圖像的植被指數(shù)
這些只是計算機視覺如何大大提高許多領(lǐng)域的生產(chǎn)力的一些小例子。我們正在進入物聯(lián)網(wǎng)進化的下一個階段。在第一階段,我們專注于連接設(shè)備,聚合數(shù)據(jù)和建立大型數(shù)據(jù)平臺。在第二階段,重點將轉(zhuǎn)移到通過計算機視覺和深度學(xué)習(xí)等技術(shù)使“事物”更加智能,從而產(chǎn)生更多可操作的數(shù)據(jù)。
挑戰(zhàn)
使技術(shù)更加實用,經(jīng)濟的問題需要克服許多問題:
嵌入式平臺需要集成深層神經(jīng)設(shè)計。圍繞電力消耗,成本,準(zhǔn)確性和靈活性制定困難的設(shè)計決策。
行業(yè)需要標(biāo)準(zhǔn)化,以允許智能設(shè)備和系統(tǒng)相互通信并共享元數(shù)據(jù)。
系統(tǒng)不再是被動的數(shù)據(jù)收集器。他們需要以最少的人為干預(yù)對數(shù)據(jù)采取行動。他們需要自己學(xué)習(xí)和即興。整個軟件/固件更新過程在機器學(xué)習(xí)時代具有新的意義。
黑客可能會利用計算機視覺和AI中的新安全漏洞。設(shè)計人員需要考慮到這一點。
結(jié)論
在這篇文章中,我們簡要介紹了計算機視覺,以及它是如何成為許多連接設(shè)備和應(yīng)用程序的重要組成部分。最重要的是,我們預(yù)測其即將爆發(fā)式增長,列出了實際應(yīng)用中的一些障礙。我們將探索新的框架,最佳實踐和設(shè)計方法,以克服一些挑戰(zhàn)。