技術(shù)
導(dǎo)讀:如今,“大數(shù)據(jù)”是一個(gè)時(shí)髦的詞匯,很多商家紛紛推出“大數(shù)據(jù)”服務(wù)。全世界的大數(shù)據(jù)技術(shù)研發(fā)機(jī)構(gòu)都吸引了眾多風(fēng)投和眼球。大數(shù)據(jù)讓人眼前一亮,也讓人兩眼一黑。據(jù)此,專家指出“要注意科學(xué)規(guī)劃,切忌一哄而上?!?/p>
“通過大數(shù)據(jù)的挖掘,從資料完整度、交友真誠度及賬號(hào)安全度評(píng)定用戶‘靠譜度’?!币患抑閼俳榻B網(wǎng)站最近打出廣告,聲稱可用“大數(shù)據(jù)”技術(shù)打擊相親騙子。
如今,“大數(shù)據(jù)”是一個(gè)時(shí)髦的詞匯,很多商家紛紛推出“大數(shù)據(jù)”服務(wù)。全世界的大數(shù)據(jù)技術(shù)研發(fā)機(jī)構(gòu)都吸引了眾多風(fēng)投和眼球。
大數(shù)據(jù)讓人眼前一亮,也讓人兩眼一黑。9月,著名信息技術(shù)分析公司Gartner發(fā)布《2013年大數(shù)據(jù)普及程度背后的炒作》報(bào)告,指出2013年30%的企業(yè)已開始大數(shù)據(jù)工作,而另外34%的企業(yè)有計(jì)劃在兩年內(nèi)開始。但這些企業(yè)大多告訴調(diào)查者,不知道自己在做什么,也不知道為什么要做大數(shù)據(jù)工作。
根據(jù)這一報(bào)告,半數(shù)以上企業(yè)不知道如何從數(shù)據(jù)中獲取價(jià)值;三分之一的企業(yè)缺乏大數(shù)據(jù)處理能力;甚至還有超過五分之一的公司不知大數(shù)據(jù)究竟為何物。
如果連嗅覺靈敏的企業(yè)家們都不真正理解大數(shù)據(jù),其他人就更是難窺其全貌。大數(shù)據(jù)時(shí)代還在雛形,它會(huì)變成什么樣子沒人能說準(zhǔn)。
起源于科學(xué)界的商業(yè)熱詞
盡管商界對(duì)大數(shù)據(jù)帶來的商機(jī)津津樂道,但一開始討論大數(shù)據(jù)時(shí)代的是科學(xué)家?!吧c醫(yī)療、粒子物理、天氣預(yù)報(bào)、基因?qū)W、地震預(yù)報(bào)等已經(jīng)是數(shù)據(jù)密集型應(yīng)用了?!鼻迦A大學(xué)自動(dòng)化系教授肖田元說,“典型的例子是美國氣象預(yù)報(bào)局年數(shù)據(jù)量達(dá)30PB(1PB=100萬GB),每日觀察資料超過35億份。DNA序列分析使用網(wǎng)絡(luò)大數(shù)據(jù)分析工具進(jìn)行億萬次DNA短鏈分析,制造基于DNA的分子物質(zhì)。科學(xué)家還推出大尺度數(shù)據(jù)管理架構(gòu)與可視化方法,讓解碼人類基因組這種原先花費(fèi)10年的工作可以在一周內(nèi)完成?!?/P>
上海大學(xué)教授費(fèi)敏銳介紹道:“像華大基因,分析的數(shù)據(jù)量有幾百PB。他們?cè)谌澜缯业搅?5種栽培稻和24種野生稻,正因?yàn)橛写髷?shù)據(jù)分析能力,他們掃描了這些水稻的全基因圖,找到了162個(gè)決定水稻產(chǎn)量的基因。”
大型強(qiáng)子對(duì)撞機(jī)(LHC)的例子更是常被提及,LHC每秒鐘生成1PB的數(shù)據(jù),要用4.5萬個(gè)磁帶機(jī)做存檔,是目前世界上最大的數(shù)據(jù)生產(chǎn)者。
在此背景下,2008年9月,《自然》雜志推出大數(shù)據(jù)???,探討科研形態(tài)變化;《科學(xué)》雜志2011年也推出大數(shù)據(jù)???,將大數(shù)據(jù)深度分析看成未來研究的突破點(diǎn)。
“真正開始討論大數(shù)據(jù),大家都公認(rèn)是《自然》雜志2008年的專輯所帶來的。”電子科學(xué)研究院研究員王積鵬說,“計(jì)量文獻(xiàn)來看,討論大數(shù)據(jù)的論文2011年發(fā)生井噴。這幾年大家都拿大數(shù)據(jù)說話,但是主要在于應(yīng)用,而不是在于理論研究?!?/P>
科學(xué)家們當(dāng)時(shí)的憂慮是大數(shù)據(jù)難以處理,肖田元說:“計(jì)算機(jī)已經(jīng)超過了千萬億次級(jí),‘天河二號(hào)’是2000萬億次,未來10年可能達(dá)到億億次。但是軟件發(fā)展很慢。美國也是這樣,認(rèn)為高性能計(jì)算的算法開發(fā)滯后。我們國家高性能計(jì)算機(jī)為什么利用率不高,原因就在這里。”
典型的數(shù)據(jù)管理困境,如國內(nèi)一位信息技術(shù)工作者所說:“我做過某衛(wèi)星的信息資源管理,衛(wèi)星每天產(chǎn)生上百GB的數(shù)據(jù)量。處理完之后,文件都存在相應(yīng)的磁盤、磁帶等,通過幾個(gè)系統(tǒng)呈現(xiàn),一年下來數(shù)據(jù)量相當(dāng)大,但是并沒有產(chǎn)生大數(shù)據(jù)的特性。”
工業(yè)界也提出了類似問題,肖田元舉例說:“有個(gè)著名的發(fā)動(dòng)機(jī)公司提出設(shè)想,把它的航空發(fā)動(dòng)機(jī)數(shù)據(jù)實(shí)時(shí)傳到總部,結(jié)合過去的數(shù)據(jù),實(shí)時(shí)檢測(cè)和預(yù)報(bào)故障。數(shù)據(jù)量非常大,現(xiàn)在要同時(shí)檢測(cè)、計(jì)算和預(yù)報(bào),很難做到?!边@一困難,肖田元概括為“科研智能如何趕上感知能力”。
在科研界關(guān)于大數(shù)據(jù)挑戰(zhàn)的討論之后,互聯(lián)網(wǎng)商業(yè)看到了大數(shù)據(jù)中的“金礦”。這也是被如今大家所熟悉的大數(shù)據(jù)議題。最典型的例子如宏源證券研究所副所長易歡歡介紹:“阿里巴巴,最早從B2B到B2C,聚集了千萬級(jí)的中小微企業(yè),形成了5.4億注冊(cè)用戶。這個(gè)公司牛在哪?這些數(shù)據(jù)背后的因素包括什么?銷售數(shù)據(jù)、產(chǎn)品數(shù)據(jù)、應(yīng)收賬款、存貨、資金流向、物業(yè)信息等一系列綜合信息,而且是實(shí)時(shí)的,遠(yuǎn)比銀行報(bào)表準(zhǔn)確得多。它有你的消費(fèi)偏好、家庭地址、還款卡號(hào)等一系列信息,這才叫大數(shù)據(jù)?!?/P>
IT業(yè)研究公司M&M發(fā)布的一份最新報(bào)告指出,全球大數(shù)據(jù)市場(chǎng)將在未來5年內(nèi)迎來高達(dá)26%的年復(fù)合增長率——即從今年的148.7億美元增長到2018年的463.4億美元。膨脹速度如此快,可見市場(chǎng)對(duì)大數(shù)據(jù)概念響應(yīng)的熱烈。
不同行業(yè)從不同角度發(fā)現(xiàn)了數(shù)據(jù)爆炸的挑戰(zhàn)和機(jī)會(huì)。最終,大數(shù)據(jù)頻頻見諸媒體,成為達(dá)沃斯等國際峰會(huì)上的熱詞,但就如前述報(bào)告所顯示的,企業(yè)家對(duì)這一概念并無把握。
數(shù)據(jù)公開讓美國占得先機(jī)
大數(shù)據(jù)商機(jī)顯現(xiàn)后,2012年3月,奧巴馬政府發(fā)布《大數(shù)據(jù)研究與發(fā)展倡議》,同時(shí)組建“大數(shù)據(jù)高級(jí)指導(dǎo)小組”,標(biāo)志著美國把大數(shù)據(jù)提高到國家戰(zhàn)略層面。
國防大學(xué)教授胡曉峰說:“我認(rèn)為奧巴馬試圖通過大數(shù)據(jù)發(fā)展計(jì)劃,再次重復(fù)信息高速公路計(jì)劃帶來的互聯(lián)網(wǎng)霸權(quán)。美國人已經(jīng)把目光瞄準(zhǔn)到大數(shù)據(jù)的未來領(lǐng)域,我覺得是為了創(chuàng)造未來的大數(shù)據(jù)霸權(quán)奠定基礎(chǔ)。”
“美國政府提出大數(shù)據(jù)計(jì)劃的根源,在于有十幾年以上數(shù)據(jù)公開的基礎(chǔ)?!北本├砉ご髮W(xué)教授丁剛毅說,美國的DATA.GOV網(wǎng)站就體現(xiàn)了政府公開數(shù)據(jù)的力度,“大家可以上網(wǎng)看,DATA.GOV的數(shù)據(jù)量非常大,和世界銀行、聯(lián)合國的數(shù)據(jù)都可以媲美。里面很多都是敏感數(shù)據(jù),但它就是敢公布,認(rèn)為只有公布這樣的數(shù)據(jù),才能有更好的國際合作去應(yīng)對(duì)危機(jī)。歐盟、英國,包括巴西這樣的發(fā)展中國家,都已經(jīng)加入了DATA.GOV”。
丁剛毅說,在數(shù)據(jù)公開上,聯(lián)合國組織和美國的一些研究機(jī)構(gòu)在全力以赴,已經(jīng)有10年了。每年還有各式各樣的活動(dòng)促進(jìn)數(shù)據(jù)公開。
美國數(shù)據(jù)開放,使不少基于政府?dāng)?shù)據(jù)的服務(wù),創(chuàng)造了巨大效益。比如硅谷有一家“氣候公司”,利用美國氣象局?jǐn)?shù)據(jù)庫中幾十年的天氣數(shù)據(jù),研究各地降雨、氣溫、土壤狀況與歷年農(nóng)作物產(chǎn)量的相關(guān)度,預(yù)測(cè)農(nóng)場(chǎng)下一年的產(chǎn)量,以出售保險(xiǎn)。這家公司由于前景光明,最近被農(nóng)業(yè)巨頭孟山都公司收購。
還有利用氣象信息和航班誤點(diǎn)信息來預(yù)測(cè)航班誤點(diǎn)幾率的服務(wù),可以推動(dòng)航空公司提高正點(diǎn)率。再如城市治堵,政府的數(shù)據(jù)也排上了用場(chǎng)——美國和英國最早利用大數(shù)據(jù)管理交通,給出交通預(yù)測(cè),讓公私車輛適時(shí)出行。
對(duì)于政府?dāng)?shù)據(jù)公開的益處,美國商務(wù)部首席信息官西克曼在一次IT會(huì)議上說:“政府實(shí)現(xiàn)預(yù)期目標(biāo)的真正障礙不僅在于收集數(shù)據(jù),更在于如何將數(shù)據(jù)轉(zhuǎn)化為切實(shí)可用的信息產(chǎn)品以及開發(fā)知識(shí)?!?/P>
“畢竟很多有能力提出好點(diǎn)子的人才分散在各個(gè)私有組織,他們也許會(huì)提出一些關(guān)于數(shù)據(jù)利用的優(yōu)秀方案?!蔽骺寺f,“分享我們的數(shù)據(jù),并不只是為了追求所謂政府事務(wù)的透明度,這真的有可能以全新方式,讓我們產(chǎn)生并傳播的數(shù)據(jù)迸發(fā)出別樣的力量——而這一切在我們現(xiàn)有的規(guī)劃及有限的資源面前根本無法實(shí)現(xiàn)。”
丁剛毅說,他曾跟國內(nèi)一些著名的互聯(lián)網(wǎng)公司接觸過,申請(qǐng)共享其數(shù)據(jù),公司表示“給你一段可以,幾百個(gè)TB也好,幾個(gè)PB也可以,但連續(xù)的數(shù)據(jù)絕對(duì)不可以”。他認(rèn)為,對(duì)于研究者,長期不斷、隨時(shí)隨地都可以接觸的數(shù)據(jù),才是大數(shù)據(jù)。
“政府和行業(yè)共享數(shù)據(jù)應(yīng)該是大數(shù)據(jù)的基礎(chǔ),離開共享政策,根本就沒有大數(shù)據(jù)?!倍傄阏f。
大數(shù)據(jù)繁榮需共享+立法
中國人對(duì)大數(shù)據(jù)的關(guān)注并不晚。2012年7月,我國《“十二五”國家戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展規(guī)劃》明確提出,要“加強(qiáng)以海量數(shù)據(jù)處理軟件等為代表的基礎(chǔ)軟件的開發(fā)”。2012年12月,中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟宣布成立。
根據(jù)IT分析公司IDC預(yù)測(cè),中國大數(shù)據(jù)技術(shù)與服務(wù)市場(chǎng)將快速增長到2016年的6.16億美元。但這一數(shù)額僅僅是世界市場(chǎng)的一個(gè)零頭。
網(wǎng)絡(luò)研究專家秦安在接受媒體訪問時(shí)表示,中國設(shè)立大數(shù)據(jù)機(jī)構(gòu)從時(shí)間上看,似乎并不落后于美國,但大數(shù)據(jù)應(yīng)用涉及整個(gè)以互聯(lián)網(wǎng)為核心的產(chǎn)業(yè)鏈,美國在大數(shù)據(jù)應(yīng)用上的領(lǐng)先程度由思科、微軟、谷歌等跨國IT公司的實(shí)力所決定,恐怕中國幾十年內(nèi)難以完全超越。
9月30日,中共中央政治局在中關(guān)村調(diào)研時(shí),百度公司CEO李彥宏就宣講了大數(shù)據(jù)的題目。他認(rèn)為大數(shù)據(jù)在兩方面最有價(jià)值,一是促進(jìn)信息消費(fèi),加快經(jīng)濟(jì)轉(zhuǎn)型升級(jí);二是關(guān)注社會(huì)民生,帶動(dòng)社會(huì)管理創(chuàng)新。李彥宏同時(shí)表示,國家層面要發(fā)展大數(shù)據(jù),就要促進(jìn)數(shù)據(jù)開放,扶持科研、培育人才。
這種“數(shù)據(jù)開放”的觀點(diǎn),代表了中國大數(shù)據(jù)行業(yè)觀察者的共識(shí)?;ヂ?lián)網(wǎng)評(píng)論家葛甲指出:“數(shù)據(jù)開放在割據(jù)狀態(tài)的互聯(lián)網(wǎng)上靠企業(yè)的力量是完不成的,只有從政府層面去進(jìn)行推動(dòng)。現(xiàn)在做大數(shù)據(jù)的公司這么多,其實(shí)多數(shù)只有個(gè)殼子,沒有實(shí)際內(nèi)容。大數(shù)據(jù)的基礎(chǔ)是巨量數(shù)據(jù),不具備一定程度的數(shù)據(jù)量,是做不成的。于是,李彥宏提出了數(shù)據(jù)開放這個(gè)概念?!?/P>
葛甲認(rèn)為,數(shù)據(jù)開放“這里面的難處,在于配套的管理制度和法律法規(guī),政府的作用就是維護(hù)其公平性,堅(jiān)決維護(hù)小企業(yè)的商業(yè)利益,扮演好管理者和仲裁者的角色,不要讓自身經(jīng)濟(jì)利益牽涉其間”。
信息產(chǎn)業(yè)專家、中國工程院院士鄔賀銓今年在一篇名為《大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)》的文章中也寫道:“中國人口居世界首位,將會(huì)成為產(chǎn)生數(shù)據(jù)量最多的國家,但我們對(duì)數(shù)據(jù)保存不夠重視,對(duì)存儲(chǔ)數(shù)據(jù)的利用率也不高。此外,我國一些部門和機(jī)構(gòu)擁有大量數(shù)據(jù)卻不愿與其他部門共享,導(dǎo)致信息不完整或重復(fù)投資。政府應(yīng)通過體制機(jī)制改革打破數(shù)據(jù)割據(jù)與封鎖。”
還有一位業(yè)界專家告訴記者,政府對(duì)大數(shù)據(jù)行業(yè)的扶持,除促進(jìn)數(shù)據(jù)公開外,應(yīng)采用購買服務(wù)的方式,而非越俎代庖,設(shè)立不必要的政府項(xiàng)目。
另外,鄔賀銓還指出應(yīng)盡快制定《信息公開法》?!艾F(xiàn)在很多機(jī)構(gòu)和企業(yè)擁有大量客戶信息。應(yīng)當(dāng)既鼓勵(lì)面向群體、服務(wù)社會(huì)的數(shù)據(jù)挖掘,又要防止侵犯個(gè)體隱私;既提倡數(shù)據(jù)共享,又要防止數(shù)據(jù)被濫用?!彼J(rèn)為,需要界定數(shù)據(jù)挖掘、利用的權(quán)限和范圍,防止信息被損壞、篡改、泄露或被竊,保護(hù)公民的信息安全。
“(大數(shù)據(jù))標(biāo)準(zhǔn)和產(chǎn)業(yè)格局尚未形成,是我國實(shí)現(xiàn)跨越式發(fā)展的寶貴機(jī)會(huì)?!编w賀銓說,“要注意科學(xué)規(guī)劃,切忌一哄而上?!?/P>