最近IT界熱炒“大數(shù)據(jù)”,并認為不管是企業(yè)還是個人,所有人都在進入“大數(shù)據(jù)時代”。而事實上,“大數(shù)據(jù)”早已至商用階段。

IDC(美國國際數(shù)據(jù)中心)近期發(fā)布的報告稱,未來10年全球大數(shù)據(jù)將增加50倍。

“1995年時,人們看到20G(1G=1000kb)的數(shù)據(jù)會覺得巨大無比;前兩年我看到以T(1T=1000G)來計算的數(shù)據(jù)還感到驚訝;現(xiàn)在則已經(jīng)看到以P來計算――1P=1000T,10年之間全球數(shù)字存儲空間翻了將近1萬余倍。未來更大的數(shù)據(jù)還有Exa(10的18次方)、Bronto(10的21次方)等。”某互聯(lián)網(wǎng)資深人士告訴記者。

“高容量、多類型、不斷刷新,為用戶帶來最終價值”,這是IDC對大數(shù)據(jù)的定義。通過龐大的數(shù)據(jù)規(guī)模、復(fù)雜的數(shù)據(jù)結(jié)構(gòu)、企高的數(shù)據(jù)關(guān)聯(lián)度,大數(shù)據(jù)給人類帶來了新的挑戰(zhàn)。

7月24日,英特爾公司針對中國市場發(fā)布自己的Hadoop大數(shù)據(jù)分析軟件;3月29日,美國奧巴馬政府投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”。

“以前我們是單機程序,現(xiàn)在很多互聯(lián)網(wǎng)公司的大部集群有幾萬臺計算機?!边@位人士說,大數(shù)據(jù)挖掘技術(shù)在IT界已存在多年,但現(xiàn)在用得越來越多。

“最近三五年,只要是做大數(shù)據(jù)挖掘的,都用這個工具。”該人士表示,目前全國多家互聯(lián)網(wǎng)公司正在為用戶服務(wù)的領(lǐng)域混戰(zhàn)。業(yè)界普遍使用Hadoop數(shù)據(jù)挖掘方法,通過把大數(shù)據(jù)量匯集成一小塊一小塊處理,最后合到一起去的辦法,來解決大數(shù)據(jù)的分析問題。

他還認為,除了大數(shù)據(jù),物聯(lián)網(wǎng)未來如果從目前的發(fā)展期突破瓶頸期,互聯(lián)網(wǎng)的信息會進一步急劇增加,未來全球所有東西都能成為網(wǎng)絡(luò)信息,這將有希望給用戶帶來更多高價值信息和重要用處。

“大數(shù)據(jù)”:互聯(lián)網(wǎng)新戰(zhàn)場?

“谷歌針對大數(shù)據(jù)存儲早就發(fā)了論文,有一定影響。但國內(nèi)的公司也在慢慢積蓄力量的階段。到了應(yīng)用階段,大家都愿意投入,競爭比較激烈。”上述人士透露,目前已有多項大數(shù)據(jù)服務(wù)引起國內(nèi)同行激烈競爭?;ヂ?lián)網(wǎng)大公司內(nèi)部對于大數(shù)據(jù)的基礎(chǔ)算法有雄厚的技術(shù)儲備。例如百度、阿里巴巴等企業(yè),原來在基礎(chǔ)投入上不夠多,但現(xiàn)在投資量非常大。

源自智能設(shè)備和視頻等器材的普及,圖像、視頻、音樂文件、還有其他基于社交媒體的文件、在Web上工作后得到的信息,都稱為大數(shù)據(jù)。有資料表明,大數(shù)據(jù)的應(yīng)用將使新硬件和新軟件信息創(chuàng)建、搜尋、管理和存儲的成本降低至2005年的1/6。

擁有海量用戶的中國門戶及社交網(wǎng)站和移動信息終端的迅速增長,使中國成為最大的大數(shù)據(jù)市場之一。中國電子信息產(chǎn)業(yè)發(fā)展研究院(CCID)近期發(fā)布報告并預(yù)測,2012年中國數(shù)據(jù)庫軟件市場規(guī)模將達38.71億元,比2011年增長20.6%。

國內(nèi)目前最為明確的大數(shù)據(jù)產(chǎn)品有云戰(zhàn)略的網(wǎng)盤服務(wù),還有基于大數(shù)據(jù)的搜索、視頻、廣告、推薦服務(wù)等?!巴扑]”作為單獨產(chǎn)品雖然還沒有浮出水面,但各家互聯(lián)網(wǎng)公司已開始發(fā)力爭奪市場。

通過數(shù)據(jù)挖掘提供的服務(wù)中,搜索最典型。目前互聯(lián)網(wǎng)上炒得火的是“推薦購買”,借互聯(lián)網(wǎng)用戶之間關(guān)系的挖掘做服務(wù)。兩億網(wǎng)民互相聯(lián)系,這使信息數(shù)量級極度膨脹,相關(guān)公司針對每個用戶的興趣愛好建模,數(shù)據(jù)量非常龐大。

國內(nèi)某知名網(wǎng)站手機客戶端管理人員告訴記者,用百度統(tǒng)計,可以做出全國用戶里北京市東城區(qū)某個街道內(nèi)誰在上某網(wǎng)站的人數(shù);還可以知道用戶使用哪種瀏覽器上網(wǎng),能為廣告商提供廣告投放渠道的信息。

據(jù)他介紹,騰訊新聞網(wǎng)在QQ用戶登錄狀態(tài)下,后臺識別后,就會自動向用戶推出“你的好友”在看什么新聞。在GoogleTalk里,假設(shè)用戶平時在這一軟件里搜索‘大興安嶺’的頻率較高,那么在下一次輸入‘大’時,它會自動顯示‘興安嶺’幾個字。

再比如迅雷,其推出的“網(wǎng)盤”使用了網(wǎng)絡(luò)云存儲的概念,網(wǎng)盤空間并不是所有的物理公間,

而是在用戶信息上傳后,它通過類聚分析,將數(shù)據(jù)做成了引用而不是拷貝。

另外,搜狐的搜狗輸入法則能挖掘用戶輸入偏好,快速更新詞庫;盛大則能提供主機服務(wù)和云服務(wù)器,提供服務(wù)器集群的服務(wù)。

“做大數(shù)據(jù)要靠數(shù)據(jù)說話。通過宏觀和歷史性數(shù)據(jù)才能分析成長曲線,也是策略分析的量化基礎(chǔ)。”該管理人員表示,這對企業(yè)的要求很高――優(yōu)秀的團隊、高水平的數(shù)據(jù)算法人才,長期的用戶積累和推算,還要不斷修正結(jié)果,才能更好地利用大數(shù)據(jù)。

“大數(shù)據(jù)”:誰人真正需要?

中國的大數(shù)據(jù)市場,從全國電信、電力、金融、社保、醫(yī)療、房地產(chǎn)、教育等政府部門,到門戶網(wǎng)站、電子商務(wù)網(wǎng)商、社交網(wǎng)站等,覆蓋面非常廣。相關(guān)部門都擁有豐富的大數(shù)據(jù)資源。

一部分國家部委和地方政府開始進行“一體化”建設(shè),以期解決全國信息割裂問題;國內(nèi)互聯(lián)網(wǎng)公司在大數(shù)據(jù)的商業(yè)應(yīng)用方面也在向前推進。但是,仍有很多問題制約著中國大數(shù)據(jù)分析的深度。

“其實,做好大數(shù)據(jù)的分析,就是要在海量的信息數(shù)據(jù)中發(fā)現(xiàn)以前被忽略的關(guān)聯(lián),從而提高生產(chǎn)效率。”上述網(wǎng)站管理人員表示。“大數(shù)據(jù)在理論上可以減少以前分布在不同維度經(jīng)濟生活中的信息不對稱,但前提是在指標上必須建立統(tǒng)一的數(shù)據(jù)庫?!彼f,目前大多數(shù)網(wǎng)站還沒有這樣的規(guī)模和積累。

據(jù)上述IT界資深人士介紹,純IT企業(yè)提供的解決方案,可能更適合類似銀行、證券交易所這樣的個體企業(yè)。他們面對的大數(shù)據(jù)比較單純,比如用戶儲取款信息、股票信息、企業(yè)經(jīng)濟運轉(zhuǎn)的信息,而不像互聯(lián)網(wǎng)信息中多是垃圾信息,對數(shù)據(jù)的要求不一樣,最終應(yīng)用也不一樣,后者的算法會更困難、更復(fù)雜。

“銀行信息更有價值,目前全球各大投行都有自己的數(shù)據(jù)分析基礎(chǔ)。比如分析股票預(yù)測,他們都有相應(yīng)模型來計算。他們對數(shù)據(jù)的要求非常高,模型考慮也非常多。而互聯(lián)網(wǎng)在應(yīng)用上不會要求那么細,因為兩者的市場不太一樣?!痹撡Y深人士分析。

據(jù)透露,他的團隊目前在做互聯(lián)網(wǎng)文本數(shù)據(jù)挖掘,包括聚類、垃圾識別、反作弊、質(zhì)量判斷等目標。“這些只是搜索內(nèi)部的方法,一項搜索產(chǎn)品需要非常大的技術(shù)團隊支持。”

Cris是微軟中國有限公司互聯(lián)網(wǎng)搜索引擎部門的一位項目經(jīng)理。她告訴記者,微軟雖然是一家傳統(tǒng)的IT公司,但是最近也發(fā)力于互聯(lián)網(wǎng)產(chǎn)品,除了傳統(tǒng)的IE瀏覽器和Office辦公軟件里的Outlook等,微軟也有很多互聯(lián)網(wǎng)產(chǎn)品,如Msn和Bing,其他傳統(tǒng)軟件也在推在線服務(wù)。

“微軟本身就有很多大數(shù)據(jù)。通過云計算和Office的升級,微軟正在經(jīng)歷整體轉(zhuǎn)型――把線下的產(chǎn)品放到線上?!盋ris表示。

據(jù)她介紹,微軟在美國的公司將Bing進行了大改版。以前它是左右兩欄,左邊顯示搜索內(nèi)容,右邊刊登廣告。改版以后,Bing分為了3欄,左欄是搜索結(jié)果,右欄是與Facebook合作的社交界面,中間則是BingKnows――能將用戶所需要搜索的數(shù)據(jù)進行信息整合,通過挖掘分析,能找到關(guān)于某一關(guān)鍵詞的所有相關(guān)文章、相關(guān)報道。

“大數(shù)據(jù)”:挖掘何時成熟?

“現(xiàn)在大數(shù)據(jù)的基礎(chǔ)算法、處理機器、本身調(diào)度和資源的節(jié)約上還存在問題。人們對數(shù)據(jù)的認識和目標本身還不太清楚。”上述資深人士表示,分析小數(shù)據(jù)時有很多想法可以去算著看,而大數(shù)據(jù)計算過程很復(fù)雜,即使付出較大代價也不一定能把問題解決得非常好。

“數(shù)據(jù)建模也沒有做好,還要更好地找準目標?!彼硎荆壳八麄儗τ袃r值的信息,也只能看準一個點就去做這一個點,未來可挖掘空間巨大――關(guān)鍵是如何發(fā)現(xiàn)有用的點,并將其發(fā)掘出來。

北京賽立信市場調(diào)查有限公司研究部副總監(jiān)陳葉紅認為,隨著互聯(lián)網(wǎng)新興媒體的呈現(xiàn),網(wǎng)絡(luò)社交方式越來越活躍,這對數(shù)據(jù)分析的影響很大。原來分析時只采用2~3個影響變量的,現(xiàn)在變成了幾十個。“這么復(fù)雜的相關(guān)性,如果不能很好把握,得出的結(jié)果會似是而非?!?

“大數(shù)據(jù)的分析之所以難實現(xiàn),就是基礎(chǔ)的東西不健全,導(dǎo)致采集上來的數(shù)據(jù)無法量化。大家都很強調(diào)定量調(diào)查,特別是跨國企業(yè),歐美政府習(xí)慣用定量數(shù)據(jù)來支撐,認為數(shù)據(jù)的說服力比感覺更大?!标惾~紅表示,現(xiàn)在大多數(shù)企業(yè)的整合分析能力不夠。有的是由于企業(yè)對數(shù)據(jù)管理不規(guī)范,但更多是害怕數(shù)據(jù)整合外包泄密。

“目前跨國公司重視通過內(nèi)外力量實現(xiàn)自我數(shù)據(jù)整合分析的能力。但國內(nèi)企業(yè)對此方面基本尚未啟動,有的企業(yè)即使有信息部門,也不是重要部門,人員能力和功能定位都很有限。當然他們更沒有形成外包概念,問起來他們會覺得奇怪:‘這個還需要外包?’”陳葉紅認為,除了已經(jīng)與國際接軌的互聯(lián)網(wǎng)行業(yè),國內(nèi)其他行業(yè)的企業(yè)也應(yīng)該跟上大數(shù)據(jù)時代的步伐,至少在常規(guī)數(shù)據(jù)積累方面可以加以改進。

上述資深人士則認為,目前一些小企業(yè)無需操心大數(shù)據(jù),而銀行業(yè)等則需要用到大數(shù)據(jù)挖掘。目前數(shù)據(jù)挖掘更多需要的是目標,然后投入做算法,而不是發(fā)展挖掘軟件,“至少現(xiàn)在沒到這個階段”。

他說,也許將來會有某家公司創(chuàng)造一種方法,很容易就能把有價值的信息組織起來,“那將是一件很牛的事”。

對于大數(shù)據(jù)未來的應(yīng)用前景,Cris認為短期內(nèi)是在做廣告用戶的精準定位上,但隨著未來更多傳統(tǒng)行業(yè)的電子化,更多信息的進入是大勢所趨,“大數(shù)據(jù)將會在電子商務(wù)和社區(qū)服務(wù)中,在與錢有關(guān)的方面大顯身手”。