應用

技術

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

數(shù)據(jù)資產(chǎn)兩手抓 智能化和安全性缺一不可

2021-07-26 09:12 中關村在線

導讀:基于大數(shù)據(jù)的個性化推薦已屢見不鮮,似乎只要數(shù)據(jù)維度和量級足夠豐富,AI對其的價值挖掘就會用之不竭。

隨著5G、物聯(lián)網(wǎng)、自動駕駛、人工智能等技術逐步落地到各行各業(yè),人們面對的數(shù)據(jù)量也達到了前所未有的量級——世界上90%的數(shù)據(jù)是在過去兩年產(chǎn)生的,到2025年數(shù)據(jù)將成倍增長10倍,攀升至163ZB。工業(yè)、金融、醫(yī)療、娛樂、媒體等行業(yè)每天都在產(chǎn)生PB級的信息量,而ML/DL、VR/AR等新興技術的應用讓數(shù)據(jù)曲線呈現(xiàn)了指數(shù)級的增長趨勢,相對應的數(shù)據(jù)所在的環(huán)境也在向云、邊、端蔓延,如何讓數(shù)據(jù)更加敏捷、可視化,訪問速度更快,管理更便捷,從而提升企業(yè)數(shù)據(jù)運營能力,是最大化數(shù)據(jù)價值的關鍵。

基于大數(shù)據(jù)的個性化推薦已屢見不鮮,似乎只要數(shù)據(jù)維度和量級足夠豐富,AI對其的價值挖掘就會用之不竭。數(shù)據(jù)讓AI有了應用價值,如Facebook會利用AI來預測用戶的未來行為,作為廣告投放的依據(jù),所參考的信息包括:位置、設備信息、圖片/視頻瀏覽記錄、WiFi連接狀態(tài)、好友關系、聊天內(nèi)容等等。然而,要想找出背后的關聯(lián)性,就要對人與人、人與物、物與物之間數(shù)據(jù)“神經(jīng)元”進行分析,但這并不容易,尤其是在人均管理的數(shù)據(jù)量呈現(xiàn)指數(shù)及增長的時候。

但與此同時,大數(shù)據(jù)在云環(huán)境的安全性正在遭受考驗。與傳統(tǒng)IT系統(tǒng)相比,用戶和服務商的身份發(fā)生了轉變,數(shù)據(jù)的所有方和托管者的角色相互獨立,這就引發(fā)了對于數(shù)據(jù)信息的新挑戰(zhàn)。數(shù)據(jù)在公有云網(wǎng)絡上具有高度虛擬化、智能化、規(guī)?;⒖蓴U展的特性,而資源共享也為黑客提供了便捷渠道,讓數(shù)據(jù)成了APT的 “標靶”,可能在產(chǎn)生、傳輸、接收等任一流程發(fā)生泄漏。

由IBM Security資助、Ponemon Institute LLC獨立開展的一項調查顯示,盡管平均數(shù)據(jù)泄露成本下降了10%,單條成本下降了2.9%。不過數(shù)據(jù)泄露事件的平均規(guī)模(丟失或被盜的記錄條數(shù))卻上升了1.8%。2016年,數(shù)據(jù)泄露平均總成本增加5.4%,而數(shù)據(jù)泄露事件的平均規(guī)模上升了3.2%,異??蛻袅魇屎蛦螚l成本均上升了2.9%??梢?,數(shù)據(jù)安全性并沒有隨著技術的演進有顯著加強。

對于云服務商來說,既可以選擇RAID部署,也可以在多個存儲節(jié)點之間各寫入幾個對象副本,這樣當某個節(jié)點出現(xiàn)故障時,其他節(jié)點的數(shù)據(jù)能夠持續(xù)補充,或者利用數(shù)據(jù)副本快速恢復丟失的信息。同時,系統(tǒng)也可借助冗余備份來組成并聯(lián)模型提升可靠性。多數(shù)情況下,云端應用會通過共享密鑰、生物識別、對象去標識、加密算法、虛擬機掃描等方式保障數(shù)據(jù)安全。

對于傳統(tǒng)原始數(shù)據(jù)來說,各個業(yè)務應用所儲存的數(shù)據(jù)并不能做到完全互通,這就導致了數(shù)據(jù)孤島,數(shù)據(jù)源既有結構化,也有分析化的,還有流式的,把這些商用大數(shù)據(jù)匯聚起來就成了數(shù)據(jù)湖,同樣是存數(shù)據(jù),這與以往的數(shù)據(jù)倉庫是不一樣的,二者的目標就不相同。例如,數(shù)據(jù)湖可囊括AI縣相關的數(shù)據(jù),這里面就包括了結構化數(shù)據(jù)、非結構化數(shù)據(jù)、半結構化數(shù)據(jù),而數(shù)據(jù)倉庫只能對結構化數(shù)據(jù)發(fā)揮作用。從調用來看,數(shù)據(jù)湖包括的信息通??梢员桓哳l訪問,為企業(yè)帶來新的運營方向,而數(shù)據(jù)倉庫的數(shù)據(jù)則是按需來調取。

Aberdeen的一項調查表明,實施數(shù)據(jù)湖的組織比同類公司在有機收入增長方面高出 9%。這些領導者能夠進行新類型的分析,例如通過日志文件、來自點擊流的數(shù)據(jù)、社交媒體以及存儲在數(shù)據(jù)湖中的互聯(lián)網(wǎng)連接設備等新來源的機器學習。這有助于他們通過吸引和留住客戶、提高生產(chǎn)力、主動維護設備以及做出明智的決策來更快地識別和應對業(yè)務增長機會。

站在傳統(tǒng)數(shù)據(jù)倉庫的角度,數(shù)據(jù)脫格和數(shù)據(jù)解耦是必備的動作,這不是在原有生產(chǎn)系統(tǒng)所進行的,而是發(fā)生在數(shù)據(jù)倉庫中,而在大數(shù)據(jù)時代這個動作就變成了數(shù)據(jù)湖,對元數(shù)據(jù)進行管理。對象存儲有了元數(shù)據(jù)管理,用戶可以擁有更大的數(shù)據(jù)湖。在完成數(shù)據(jù)脫格的時候,能夠把數(shù)據(jù)有效管理起來,為后續(xù)的數(shù)據(jù)質量治理、數(shù)據(jù)管理提升打好基礎。

事實上,從大型機時代的DB2到后來的關系型數(shù)據(jù)庫,再到數(shù)據(jù)倉庫、商業(yè)智能,最初就是以批處理、集中式的方式去解決結構化數(shù)據(jù)的處理需求,直到商業(yè)大數(shù)據(jù)的成熟使得數(shù)據(jù)分析有了更大的價值。不過在數(shù)據(jù)湖逐漸出現(xiàn)之后,傳統(tǒng)集中化的處理開始難以應付大規(guī)模數(shù)據(jù),于是就有了以Hadoop為代表的分布式處理技術。

Google曾做過一項調查,數(shù)據(jù)科學家僅有少數(shù)時間在寫代碼,更多的時間放在了數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)治理等“數(shù)據(jù)管道”的工作上。由此可見,一個多功能、智能化、高效易用的管道對于幫助數(shù)據(jù)科學家提升工作效率、挖掘數(shù)據(jù)價值有著關鍵作用。

實時性、智能化、高彈性,使得云上構建數(shù)據(jù)湖成為了很多用戶的選擇。ESG研究發(fā)現(xiàn),39% 的調查對象認為云部署主要用于分析,41%認為用于數(shù)據(jù)倉庫,43%認為用于Spark。此時,數(shù)據(jù)湖的無縫傳輸和穩(wěn)定性變得更加重要。以AWS為例,其要做的第一步就是將數(shù)據(jù)移動到云中。要知道,帶寬和傳輸速度的物理限制在不會造成重大中斷、高成本和長時間的前提下,限制了移動數(shù)據(jù)的能力。

然而在數(shù)據(jù)的傳輸過程中,SSL協(xié)議會被用來解決安全問題。通常,SSL協(xié)議層在TCP/IP層和應用層之間,可以使用不對稱加密技術實現(xiàn)會話雙方信息的傳遞,能夠保證完整性和私密性,以及識別對方的身份。例如,配置服務器的SSL不僅需要驗證用戶身份,還要求瀏覽器提供用戶證書。之后,客戶端會檢查服務器證書,如果檢查失敗,則不能建立SSL連接。如果成功,則繼續(xù)。

可以說,云計算時代的大數(shù)據(jù)面臨的威脅與日俱增,而如何給予用戶安全感是云服務商要思考的問題。一方面,要讓用戶掌握對數(shù)據(jù)的控制權,采取多級加密驗證機制,讓用戶能夠監(jiān)測到文件創(chuàng)建以來的元數(shù)據(jù),另一方面也要做好健全的安全賠付機制,這樣才會讓用戶放心地將數(shù)據(jù)遷移上云。