1 歷史
“大數(shù)據(jù)”作為時(shí)下最火熱的IT行業(yè)的詞匯,隨之而來的數(shù)據(jù)倉庫、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等等圍繞大數(shù)據(jù)的商業(yè)價(jià)值的利用逐漸成為行業(yè)人士爭(zhēng)相追捧的利潤(rùn)焦點(diǎn)。
對(duì)于“大數(shù)據(jù)”(Big
data)研究機(jī)構(gòu)Gartner給出了這樣的定義。“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
“大數(shù)據(jù)”這個(gè)術(shù)語最早期的引用可追溯到apache org的開源項(xiàng)目Nutch。當(dāng)時(shí),大數(shù)據(jù)用來描述為更新網(wǎng)絡(luò)搜索索引需要同時(shí)進(jìn)行批量處理或分析的大量數(shù)據(jù)集。隨著谷歌MapReduce和Google
File System (GFS)的發(fā)布,大數(shù)據(jù)不再僅用來描述大量的數(shù)據(jù),還涵蓋了處理數(shù)據(jù)的速度。
早在1980年,著名未來學(xué)家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。不過,大約從2009年開始,“163大數(shù)據(jù)”才成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。美國互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長(zhǎng)50%,每?jī)赡瓯銓⒎环壳笆澜缟?0%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。此外,數(shù)據(jù)又并非單純指人們?cè)诨ヂ?lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設(shè)備、汽車、電表上有著無數(shù)的數(shù)碼傳感器,隨時(shí)測(cè)量和傳遞著有關(guān)位置、運(yùn)動(dòng)、震動(dòng)、溫度、濕度乃至空氣中化學(xué)物質(zhì)的變化,也產(chǎn)生了海量的數(shù)據(jù)信息。 工具專業(yè)網(wǎng)入口
2 原理
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
從技術(shù)上看,
大數(shù)據(jù)與云計(jì)算的關(guān)系
大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘(SaaS),但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(PaaS)和云存儲(chǔ)、虛擬化技術(shù)(IaaS)。隨著云時(shí)代的來臨,大數(shù)據(jù)(Big
data)也吸引了越來越多的關(guān)注!吨婆_(tái)》的分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)(Big
data)通常用來形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時(shí)會(huì)花費(fèi)過多時(shí)間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過時(shí)間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘電網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)。
最小的基本單位是Byte,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,
它們按照進(jìn)率1024(2的十次方)來計(jì)算:
1Byte = 8 bit
1 KB = 1,024 Bytes
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB |
3 解構(gòu)
大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒有必要神話它或?qū)λ3志次分,在以云?jì)算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本很難收集和使用的數(shù)據(jù)開始容易被利用起來了,通過各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會(huì)逐步為人類創(chuàng)造更多的價(jià)值。
其次,想要系統(tǒng)的認(rèn)知大數(shù)據(jù),必須要全面而細(xì)致的分解它,我著手從三個(gè)層面來展開:
第一層面是理論,理論是認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線。我會(huì)從大數(shù)據(jù)的特征定義理解行業(yè)對(duì)大數(shù)據(jù)的整體描繪和定性;從對(duì)大數(shù)據(jù)價(jià)值的探討來深入解析大數(shù)據(jù)的珍貴所在;洞悉大數(shù)據(jù)的發(fā)展趨勢(shì);從大數(shù)據(jù)隱私這個(gè)特別而重要的視角審視人和數(shù)據(jù)之間的長(zhǎng)久博弈。
第二層面是技術(shù),技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。我將分別從云計(jì)算、分布式處理技術(shù)、存儲(chǔ)技術(shù)和感知技術(shù)的發(fā)展來說明大數(shù)據(jù)從采集、處理、存儲(chǔ)到形成結(jié)果的整個(gè)過程。
第三層面是實(shí)踐,實(shí)踐是大數(shù)據(jù)的最終價(jià)值體現(xiàn)。我將分別從互聯(lián)網(wǎng)的大數(shù)據(jù),政府的大數(shù)據(jù),企業(yè)的大數(shù)據(jù)和個(gè)人的大數(shù)據(jù)四個(gè)方面來描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象及即將實(shí)現(xiàn)的藍(lán)圖。 工具專業(yè)網(wǎng)入口
4 特點(diǎn)
大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用,具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點(diǎn)!队(jì)算機(jī)學(xué)報(bào)》刊登的“架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望”一文列舉了大數(shù)據(jù)分析平臺(tái)需要具備的幾個(gè)重要特性,對(duì)當(dāng)前的主流實(shí)現(xiàn)平臺(tái)——并行數(shù)據(jù)庫、MapReduce及基于兩者的混合架構(gòu)進(jìn)行了分析歸納,指出了各自的優(yōu)勢(shì)及不足,同時(shí)也對(duì)各個(gè)方向的研究現(xiàn)狀及作者在大數(shù)據(jù)分析方面的努力進(jìn)行了介紹,對(duì)未來研究做了展望。
大數(shù)據(jù)的4個(gè)“V”,或者說特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別;第二,數(shù)據(jù)類型繁多。前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,數(shù)據(jù)的來源,直接導(dǎo)致分析結(jié)果的準(zhǔn)確性和真實(shí)性。若數(shù)據(jù)來源是完整的并且真實(shí),最終的分析結(jié)果以及決定將更加準(zhǔn)確。第四,處理速度快,1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將其歸納為4個(gè)“V”——Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(真實(shí)性)
從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。簡(jiǎn)言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù)。明白這一點(diǎn)至關(guān)重要,也正是這一點(diǎn)促使該技術(shù)具備走向眾多企業(yè)的潛力。
5 用途
大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學(xué)問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運(yùn)營管理的系統(tǒng)工程;大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營過程中發(fā)現(xiàn)和驗(yàn)證大數(shù)據(jù)的規(guī)律及其與自然和社會(huì)活動(dòng)之間的關(guān)系。
物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
有些例子包括網(wǎng)絡(luò)日志,RFID,傳感器網(wǎng)絡(luò),社會(huì)網(wǎng)絡(luò),社會(huì)數(shù)據(jù)(由于數(shù)據(jù)革命的社會(huì)),互聯(lián)網(wǎng)文本和文件;互聯(lián)網(wǎng)搜索索引;呼叫詳細(xì)記錄,天文學(xué),大氣科學(xué),基因組學(xué),生物地球化學(xué),生物,和其他復(fù)雜和/或跨學(xué)科的科研,軍事偵察,醫(yī)療記錄;攝影檔案館視頻檔案;和大規(guī)模的電子商務(wù)。 工具專業(yè)網(wǎng)入口
6 應(yīng)用
洛杉磯警察局和加利福尼亞大學(xué)合作利用大數(shù)據(jù)預(yù)測(cè)犯罪的發(fā)生。
google流感趨勢(shì)(Google Flu Trends)利用搜索關(guān)鍵詞預(yù)測(cè)禽流感的散布。
統(tǒng)計(jì)學(xué)家內(nèi)特.西爾弗(Nate Silver)利用大數(shù)據(jù)預(yù)測(cè)2012美國選舉結(jié)果。
麻省理工學(xué)院利用手機(jī)定位數(shù)據(jù)和交通數(shù)據(jù)建立城市規(guī)劃。
梅西百貨的實(shí)時(shí)定價(jià)機(jī)制。根據(jù)需求和庫存的情況,該公司基于SAS的系統(tǒng)對(duì)多達(dá)7300萬種貨品進(jìn)行實(shí)時(shí)調(diào)價(jià)。
Tipp24 AG針對(duì)歐洲博彩業(yè)構(gòu)建的下注和預(yù)測(cè)平臺(tái)。該公司用KXEN軟件來分析數(shù)十億計(jì)的交易以及客戶的特性,然后通過預(yù)測(cè)模型對(duì)特定用戶進(jìn)行動(dòng)態(tài)的營銷活動(dòng)。這項(xiàng)舉措減少了90%的預(yù)測(cè)模型構(gòu)建時(shí)間。SAP公司正在試圖收購KXEN。“SAP想通過這次收購來扭轉(zhuǎn)其長(zhǎng)久以來在預(yù)測(cè)分析方面的劣勢(shì)!盠aney分析到。
沃爾瑪?shù)乃阉。這家零售業(yè)寡頭為其網(wǎng)站自行設(shè)計(jì)了最新的搜索引擎Polaris,利用語義數(shù)據(jù)進(jìn)行文本分析、機(jī)器學(xué)習(xí)和同義詞挖掘等。根據(jù)沃爾瑪?shù)恼f法,語義搜索技術(shù)的運(yùn)用使得在線購物的完成率提升了10%到15%。“對(duì)沃爾瑪來說,這就意味著數(shù)十億美元的金額。”Laney說?觳蜆I(yè)的視頻分析(Laney沒有說出這家公司的名字)。該公司通過視頻分析等候隊(duì)列的長(zhǎng)度,然后自動(dòng)變化電子菜單顯示的內(nèi)容。如果隊(duì)列較長(zhǎng),則顯示可以快速供給的食物;如果隊(duì)列較短,則顯示那些利潤(rùn)較高但準(zhǔn)備時(shí)間相對(duì)長(zhǎng)的食品。
Morton牛排店的品牌認(rèn)知。當(dāng)一位顧客開玩笑地通過推特向這家位于芝加哥的牛排連鎖店訂餐送到紐約Newark機(jī)場(chǎng)(他將在一天工作之后抵達(dá)該處)時(shí),Morton就開始了自己的社交秀。首先,分析推特?cái)?shù)據(jù),發(fā)現(xiàn)該顧客是本店的?,也是推特的常用者。根據(jù)客戶以往的訂單,推測(cè)出其所乘的航班,然后派出一位身著燕尾服的侍者為客戶提供晚餐。也許,這聽起來過于離奇,但是你必須審視自己:“我是否有能力做到這個(gè)程度?”Laney說。
PredPol Inc.。PredPol公司通過與洛杉磯和圣克魯斯的警方以及一群研究人員合作,基于地震預(yù)測(cè)算法的變體和犯罪數(shù)據(jù)來預(yù)測(cè)犯罪發(fā)生的幾率,可以精確到500平方英尺的范圍內(nèi)。在洛杉磯運(yùn)用該算法的地區(qū),盜竊罪和暴力犯罪分布下降了33%和21%。
Tesco
PLC(特易購)和運(yùn)營效率。這家超市連鎖在其數(shù)據(jù)倉庫中收集了700萬部冰箱的數(shù)據(jù)。通過對(duì)這些數(shù)據(jù)的分析,進(jìn)行更全面的監(jiān)控并進(jìn)行主動(dòng)的維修以降低整體能耗。
American
Express(美國運(yùn)通,AmEx)和商業(yè)智能。以往,AmEx只能實(shí)現(xiàn)事后諸葛式的報(bào)告和滯后的預(yù)測(cè)。“傳統(tǒng)的BI已經(jīng)無法滿足業(yè)務(wù)發(fā)展的需要!盠aney認(rèn)為。于是,AmEx開始構(gòu)建真正能夠預(yù)測(cè)忠誠度的模型,基于歷史交易數(shù)據(jù),用115個(gè)變量來進(jìn)行分析預(yù)測(cè)。該公司表示,對(duì)于澳大利亞將于之后四個(gè)月中流失的客戶,已經(jīng)能夠識(shí)別出其中的24%。
Express Scripts Holding
Co.的產(chǎn)品制造。該公司發(fā)現(xiàn)那些需要服藥的人常常也是最可能忘記服藥的人。因此,他們開發(fā)了一個(gè)新產(chǎn)品:會(huì)響鈴的藥品蓋和自動(dòng)的電話呼叫,以此提醒患者按時(shí)服藥。
Infinity Property & Casualty Corp.的黑暗數(shù)據(jù)(dark data)。Laney對(duì)于黑暗數(shù)據(jù)的定義是,那些針對(duì)單一目標(biāo)而收集的數(shù)據(jù),通常用過之后就被歸檔閑置,其真正價(jià)值未能被充分挖掘。在特定情況下,這些數(shù)據(jù)可以用作其他用途。該公司用累積的理賠師報(bào)告來分析欺詐案例,通過算法挽回了1200萬美元的代位追償金額。 工具專業(yè)網(wǎng)入口
IBM戰(zhàn)略
IBM的大數(shù)據(jù)戰(zhàn)略以其在2012年5月發(fā)布智慧分析洞察“3A5步”動(dòng)態(tài)路線圖作為基礎(chǔ)。所謂“3A5步”,指的是在“掌握信息”(Align)的基礎(chǔ)上“獲取洞察”(Anticipate),進(jìn)而采取行動(dòng)(Act),優(yōu)化決策策劃能夠救業(yè)務(wù)績(jī)效。除此之外,還需要不斷地“學(xué)習(xí)”(Learn)從每一次業(yè)務(wù)結(jié)果中獲得反饋,改善基于信息的決策流程,從而實(shí)現(xiàn)“轉(zhuǎn)型”(Transform)。
基于“3A5步”動(dòng)態(tài)路線圖,IBM提出了“大數(shù)據(jù)平臺(tái)”架構(gòu)。該平臺(tái)的四大核心能力包括Hadoop系統(tǒng)、流計(jì)算(StreamComputing)、數(shù)據(jù)倉庫(Data
Warehouse)和信息整合與治理(Information Integration and Governance)。
在大數(shù)據(jù)處理領(lǐng)域,IBM于2012年10月推出了IBMPureSystems專家集成系統(tǒng)的新成員——IBM PureData系統(tǒng)。這是IBM在數(shù)據(jù)處理領(lǐng)域發(fā)布的首個(gè)集成系統(tǒng)產(chǎn)品系列。PureData系統(tǒng)具體包含三款產(chǎn)品,分別為PureDataSystem
for Transactions、PureData System forAnalytics和PureData System for
Operational Analytics,可分別應(yīng)用于OLTP(聯(lián)機(jī)事務(wù)處理)、OLAP(聯(lián)機(jī)分析處理)和大數(shù)據(jù)分析操作。與此前發(fā)布的IBMPureSystems系列產(chǎn)品一樣,IBM
PureData系統(tǒng)提供內(nèi)置的專業(yè)知識(shí)、源于設(shè)計(jì)的集成,以及在其整個(gè)生命周期中的簡(jiǎn)化體驗(yàn)。
斯隆數(shù)字巡天收集在其最初的幾個(gè)星期,就比在天文學(xué)的歷史上值錢的2000年的收集了更多的數(shù)據(jù)。自那時(shí)以來,它已經(jīng)積累了140兆兆字節(jié)的信息。這個(gè)望遠(yuǎn)鏡的繼任者,大天氣巡天望遠(yuǎn)鏡,將于2016年在網(wǎng)上將獲得數(shù)據(jù)公布,沃爾瑪每隔一小時(shí)處理超過100萬客戶的交易,錄入量數(shù)據(jù)庫估計(jì)超過2.5
PB相當(dāng)于美國國會(huì)圖書館的書籍的167倍
。FACEBOOK從它的用戶群獲得并處理400億張照片。解碼最原始的人類基因組花費(fèi)10年時(shí)間處理,如今可以在一個(gè)星期內(nèi)實(shí)現(xiàn)。
“大數(shù)據(jù)”的影響,增加了對(duì)信息管理專家的需求,甲骨文,IBM,微軟和SAP花了超過15億美元的在軟件智能數(shù)據(jù)管理和分析的專業(yè)公司。這個(gè)行業(yè)自身價(jià)值超過1000億美元,增長(zhǎng)近10%,每年兩次,這大概是作為一個(gè)整體的軟件業(yè)務(wù)的快速。
大數(shù)據(jù)已經(jīng)出現(xiàn),因?yàn)槲覀兩钤谝粋(gè)有更多信息的社會(huì)中。有46億全球移動(dòng)電話用戶有20億人訪問互聯(lián)網(wǎng);旧,人們比以往任何時(shí)候都與數(shù)據(jù)或信息交互。
1990年至2005年,全球超過1億人進(jìn)入中產(chǎn)階級(jí),這意味著越來越多的人收益的這筆錢將反過來導(dǎo)致更多的信息增長(zhǎng)。思科公司預(yù)計(jì),到2013年,在互聯(lián)網(wǎng)上流動(dòng)的交通量將達(dá)到每年667艾字節(jié)。
大數(shù)據(jù),其影響除了經(jīng)濟(jì)方面的,它同時(shí)也能在政治、文化等方面產(chǎn)生深遠(yuǎn)的影響,大數(shù)據(jù)可以幫助人們開啟循“數(shù)”管理的模式,也是我們當(dāng)下“大社會(huì)”的集中體現(xiàn),三分技術(shù),七分?jǐn)?shù)據(jù),得數(shù)據(jù)者得天下。
7 數(shù)據(jù)價(jià)值
眾所周知,企業(yè)數(shù)據(jù)本身就蘊(yùn)藏著價(jià)值,但是將有用的數(shù)據(jù)與沒有價(jià)值的數(shù)據(jù)進(jìn)行區(qū)分看起來可能是一個(gè)棘手的問題。
顯然,您所掌握的人員情況、工資表和客戶記錄對(duì)于企業(yè)的運(yùn)轉(zhuǎn)至關(guān)重要,但是其他數(shù)據(jù)也擁有轉(zhuǎn)化為價(jià)值的力量。一段記錄人們?nèi)绾卧谀纳痰隇g覽購物的視頻、人們?cè)谫徺I您的服務(wù)前后的所作所為、如何通過社交網(wǎng)絡(luò)聯(lián)系您的客戶、是什么吸引合作伙伴加盟、客戶如何付款以及供應(yīng)商喜歡的收款方式……所有這些場(chǎng)景都提供了很多指向,將它們抽絲剝繭,透過特殊的棱鏡觀察,將其與其他數(shù)據(jù)集對(duì)照,或者以與眾不同的方式分析解剖,就能讓您的行事方式發(fā)生天翻地覆的轉(zhuǎn)變。 工具專業(yè)網(wǎng)入口
但是屢見不鮮的是,很多公司仍然只是將信息簡(jiǎn)單堆在一起,僅將其當(dāng)作為滿足公司治理規(guī)則而必須要保存的信息加以處理,而不是將它們作為戰(zhàn)略轉(zhuǎn)變的工具。
畢竟,數(shù)據(jù)和人員是業(yè)務(wù)部門僅有的兩筆無法被競(jìng)爭(zhēng)對(duì)手復(fù)制的財(cái)富。在善用的人手中,好的數(shù)據(jù)是所有管理決策的基礎(chǔ),帶來的是對(duì)客戶的深入了解和競(jìng)爭(zhēng)優(yōu)勢(shì)。數(shù)據(jù)是業(yè)務(wù)部門的生命線,必須讓數(shù)據(jù)在決策和行動(dòng)時(shí)無縫且安全地流到人們手中。
所以,數(shù)據(jù)應(yīng)該隨時(shí)為決策提供依據(jù)?纯丛谡_道路和公共交通的使用信息這樣看起來甚至有點(diǎn)晦澀的數(shù)據(jù)時(shí)會(huì)發(fā)生什么:這些數(shù)據(jù)來源為一些私營公司提供了巨大的價(jià)值,這些公司能夠善用這些數(shù)據(jù),創(chuàng)造滿足潛在需求的新產(chǎn)品和服務(wù)。
企業(yè)需要向創(chuàng)造和取得數(shù)據(jù)方面的投入索取回報(bào)。有效管理來自新舊來源的數(shù)據(jù)以及獲取能夠破解龐大數(shù)據(jù)集含義的工具只是等式的一部分,但是這種挑戰(zhàn)不容低估。產(chǎn)生的數(shù)據(jù)在數(shù)量上持續(xù)膨脹;音頻、視頻和圖像等富媒體需要新的方法來發(fā)現(xiàn);電子郵件、IM、tweet和社交網(wǎng)絡(luò)等合作和交流系統(tǒng)以非結(jié)構(gòu)化文本的形式保存數(shù)據(jù),必須用一種智能的方式來解讀。
但是,應(yīng)該將這種復(fù)雜性看成是一種機(jī)會(huì)而不是問題。處理方法正確時(shí),產(chǎn)生的數(shù)據(jù)越多,結(jié)果就會(huì)越成熟可靠。傳感器、GPS系統(tǒng)和社交數(shù)據(jù)的新世界將帶來轉(zhuǎn)變運(yùn)營的驚人新視角和機(jī)會(huì)。請(qǐng)不要錯(cuò)過。
有些人會(huì)說,數(shù)據(jù)中蘊(yùn)含的價(jià)值只能由專業(yè)人員來解讀。但是澤字節(jié)經(jīng)濟(jì)并不只是數(shù)據(jù)科學(xué)家和高級(jí)開發(fā)員的天下。
數(shù)據(jù)的價(jià)值在于將正確的信息在正確的時(shí)間交付到正確的人手中。未來將屬于那些能夠駕馭所擁有數(shù)據(jù)的公司,這些數(shù)據(jù)與公司自身的業(yè)務(wù)和客戶相關(guān),通過對(duì)數(shù)據(jù)的利用,發(fā)現(xiàn)新的洞見,幫助他們找出競(jìng)爭(zhēng)優(yōu)勢(shì)。
8 數(shù)據(jù)機(jī)遇
自從有了IT部門,董事會(huì)就一直在要求信息管理專家提供洞察力。實(shí)際上,早在1951年,對(duì)預(yù)測(cè)小吃店蛋糕需求的訴求就催生了計(jì)算機(jī)的首次商業(yè)應(yīng)用。自那以后,我們利用技術(shù)來識(shí)別趨勢(shì)和制定戰(zhàn)略戰(zhàn)術(shù)的能力不斷呈指數(shù)級(jí)日臻完善。
今天,商業(yè)智能 (使用數(shù)據(jù)模式看清曲線周圍的一切) 穩(wěn)居 CXO 們的重中之重。在理想的世界中,IT
是巨大的杠桿,改變了公司的影響力,帶來競(jìng)爭(zhēng)差異、節(jié)省金錢、增加利潤(rùn)、愉悅買家、獎(jiǎng)賞忠誠用戶、將潛在客戶轉(zhuǎn)化為客戶、增加吸引力、打敗競(jìng)爭(zhēng)對(duì)手、開拓用戶群并創(chuàng)造市場(chǎng)。
大數(shù)據(jù)分析是商業(yè)智能的演進(jìn)。當(dāng)今,傳感器、GPS 系統(tǒng)、QR
碼、社交網(wǎng)絡(luò)等正在創(chuàng)建新的數(shù)據(jù)流。所有這些都可以得到發(fā)掘,正是這種真正廣度和深度的信息在創(chuàng)造不勝枚舉的機(jī)會(huì)。要使大數(shù)據(jù)言之有物,以便讓大中小企業(yè)都能通過更加貼近客戶的方式取得競(jìng)爭(zhēng)優(yōu)勢(shì),數(shù)據(jù)集成和數(shù)據(jù)管理是核心所在。
面臨從全球化到衰退威脅的風(fēng)暴, IT 部門領(lǐng)導(dǎo)需要在掘金大數(shù)據(jù)中打頭陣,新經(jīng)濟(jì)環(huán)境中的贏家將會(huì)是最好地理解哪些指標(biāo)影響其大步前進(jìn)的人。
當(dāng)然,企業(yè)仍將需要聰明的人員做出睿智的決策,了解他們面臨著什么,在充分利用的情況下,大數(shù)據(jù)可以賦予人們近乎超感官知覺的能力。Charles
Duigg是《習(xí)慣的力量》一書的作者,他找出的一個(gè)黃金案例分析的例子是美國零售商
Target,其發(fā)現(xiàn)婦女在懷孕的中間三個(gè)月會(huì)經(jīng)常購買沒有氣味的護(hù)膚液和某些維生素。通過鎖定這些購物者,商店可提供將這些婦女變成忠誠客戶的優(yōu)惠券。實(shí)際上,Target
知道一位婦女懷孕時(shí),那位婦女甚至還沒有告訴最親近的親朋好友 -- 更不要說商店自己了。
很明顯,在可以預(yù)見的將來,隱私將仍是重要的考量,但是歸根結(jié)底,用于了解行為的技術(shù)會(huì)為方方面面帶來雙贏,讓賣家了解買家,讓買家喜歡買到的東西。
再看一下作家兼科學(xué)家 Stephen Wolfram的例子,他收集有關(guān)自身習(xí)慣的數(shù)據(jù),以分析他的個(gè)人行為,預(yù)測(cè)事件在未來的可能性。
大數(shù)據(jù)將會(huì)放大我們的能力,了解看起來難以理解和隨機(jī)的事物。對(duì)其前途的了解提供了獲取嶄新知識(shí)和能力的機(jī)會(huì),將改變您的企業(yè)運(yùn)作的方式。
9 數(shù)據(jù)回報(bào)
簡(jiǎn)而言之,企業(yè)可以通過思考數(shù)據(jù)戰(zhàn)略的總體回報(bào),來應(yīng)對(duì)大數(shù)據(jù)的挑戰(zhàn),抓住大數(shù)據(jù)的機(jī)會(huì)。Informatica所指的‘?dāng)?shù)據(jù)回報(bào)率’,是為幫助高級(jí)IT和業(yè)務(wù)部門領(lǐng)導(dǎo)者進(jìn)行大數(shù)據(jù)基本的戰(zhàn)術(shù)和戰(zhàn)略含義的討論而設(shè)計(jì)的一個(gè)簡(jiǎn)單概念。等式非常簡(jiǎn)單:如果您提高數(shù)據(jù)對(duì)于業(yè)務(wù)部門的價(jià)值,同時(shí)降低管理數(shù)據(jù)的成本,從數(shù)據(jù)得到的回報(bào)就會(huì)增加
-- 無論是用金錢衡量,還是更好的決策
數(shù)據(jù)回報(bào)率=數(shù)據(jù)價(jià)值/數(shù)據(jù)成本
在技術(shù)層面,數(shù)據(jù)回報(bào)率為數(shù)據(jù)集成、數(shù)據(jù)管理、商業(yè)智能和分析方面的投入提供了業(yè)務(wù)背景和案例。它還與解決業(yè)務(wù)的基礎(chǔ)有關(guān):掙錢、省錢、創(chuàng)造機(jī)會(huì)和管理風(fēng)險(xiǎn)。它涉及對(duì)效率的考慮,同時(shí)推動(dòng)了改變游戲規(guī)則的洞察力。
10 實(shí)現(xiàn)回報(bào)
Informatica深知,對(duì)于很多企業(yè)來說,向數(shù)據(jù)回報(bào)模型的轉(zhuǎn)變不會(huì)一蹴而就。管理數(shù)據(jù)并將其成本降低的短期要求將會(huì)是首要焦點(diǎn),同樣還需要打破障礙以了解數(shù)據(jù)。企業(yè)只有這時(shí)才可以開始從傳統(tǒng)和新興數(shù)據(jù)集獲得更多價(jià)值。Informatica可提供數(shù)據(jù)集成平臺(tái)和領(lǐng)導(dǎo)力,為企業(yè)提供全程幫助。
在大數(shù)據(jù)的世界中,最靈活和成功的企業(yè)將會(huì)是那些善用大機(jī)遇的公司。
11 處理工具
當(dāng)前用于分析大數(shù)據(jù)的工具主要有開源與商用兩個(gè)生態(tài)圈。
開源大數(shù)據(jù)生態(tài)圈:
1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 漸次誕生,早期Hadoop生態(tài)圈逐步形成。
2、. Hypertable是另類。它存在于Hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶。
3、NoSQL,membase、MongoDb
商用大數(shù)據(jù)生態(tài)圈:
1、一體機(jī)數(shù)據(jù)庫/數(shù)據(jù)倉庫:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、數(shù)據(jù)倉庫:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、數(shù)據(jù)集市:QlikView、 Tableau 、 以及國內(nèi)的Yonghong Data Mart 。
12 操作方法
SOA模型
我們需要的是以數(shù)據(jù)為中心的SOA還是以SOA為中心的數(shù)據(jù)?
SOA編程模型
答案取決于如何處理的SOA-數(shù)據(jù)關(guān)系的三個(gè)不同模型來管理大數(shù)據(jù)、云數(shù)據(jù)和數(shù)據(jù)層次結(jié)構(gòu)。在越來越多的虛擬資源中,將這些模型之間所有類型的數(shù)據(jù)進(jìn)行最優(yōu)擬合是SOA所面臨的巨大挑戰(zhàn)之一。本文詳細(xì)介紹了每個(gè)SOA模型管理數(shù)據(jù)的優(yōu)點(diǎn)、選擇和選項(xiàng)。
SOA的三個(gè)數(shù)據(jù)中心模型分別是數(shù)據(jù)即服務(wù)(DaaS)模型、物理層次結(jié)構(gòu)模型和架構(gòu)組件模型。DaaS數(shù)據(jù)存取的模型描述了數(shù)據(jù)是如何提供給SOA組件的。物理模型描述了數(shù)據(jù)是如何存儲(chǔ)的以及存儲(chǔ)的層次圖是如何傳送到SOA數(shù)據(jù)存儲(chǔ)器上的。最后,架構(gòu)模型描述了數(shù)據(jù)、數(shù)據(jù)管理服務(wù)和SOA組件之間的關(guān)系。
SOA和數(shù)據(jù)企業(yè)的例子
也許以極限情況為開始是理解SOA數(shù)據(jù)問題的最好方式:一個(gè)企業(yè)的數(shù)據(jù)需求完全可以由關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)中的條款來表示。這樣一個(gè)企業(yè)可能會(huì)直接采用數(shù)據(jù)庫設(shè)備或者將專用的數(shù)據(jù)庫服務(wù)器和現(xiàn)有的查詢服務(wù)連接到SOA組件(查詢即服務(wù),或QaaS)上。這種設(shè)計(jì)理念之前已經(jīng)被人們所接受。該設(shè)計(jì)之所以成功是因?yàn)樗胶饬松鲜鋈齻(gè)模型之間的關(guān)系。QaaS服務(wù)模型不是機(jī)械地連接到存儲(chǔ)器上;而是通過一個(gè)單一的架構(gòu)——
RDBMS(關(guān)系型數(shù)據(jù)庫管理系統(tǒng))。數(shù)據(jù)去重和完整性便于管理單一的架構(gòu)。
通過大數(shù)據(jù)的例子可以更好地理解為什么這個(gè)簡(jiǎn)單的方法卻不能在更大的范圍內(nèi)處理數(shù)據(jù)。多數(shù)的大數(shù)據(jù)是非關(guān)系型的、非交易型的、非結(jié)構(gòu)化的甚至是未更新的數(shù)據(jù)。由于缺乏數(shù)據(jù)結(jié)構(gòu)因此將其抽象成一個(gè)查詢服務(wù)并非易事,由于數(shù)據(jù)有多個(gè)來源和形式因此很少按序存儲(chǔ),并且定義基礎(chǔ)數(shù)據(jù)的完整性和去重過程是有一些規(guī)則的。當(dāng)作為大數(shù)據(jù)引入到SOA的應(yīng)用程序中時(shí),關(guān)鍵是要定義三種模型中的最后一種模型,SOA數(shù)據(jù)關(guān)系中的架構(gòu)模型。有兩種選擇:水平方向和垂直方向。
SOA和各類數(shù)據(jù)模型
在水平集成數(shù)據(jù)模型中,數(shù)據(jù)收集隱蔽于一套抽象的數(shù)據(jù)服務(wù)器,該服務(wù)器有一個(gè)或多個(gè)接口連接到應(yīng)用程序上,也提供所有的完整性和數(shù)據(jù)管理功能。組件雖不能直接訪問數(shù)據(jù),但作為一種即服務(wù)形式,就像他們?cè)诤?jiǎn)單情況下的企業(yè),其數(shù)據(jù)的要求是純粹的RDBMS模型。應(yīng)用程序組件基本上脫離了RDBMS與大數(shù)據(jù)之間數(shù)據(jù)管理的差異。盡管由于上述原因這種方法不能創(chuàng)建簡(jiǎn)單的RDBMS查詢模型,但是它至少復(fù)制了我們上面提到的簡(jiǎn)單的RDBMS模型。
垂直集成的數(shù)據(jù)模型以更多應(yīng)用程序特定的方式連接到數(shù)據(jù)服務(wù)上,該方式使得客戶關(guān)系管理、企業(yè)資源規(guī)劃或動(dòng)態(tài)數(shù)據(jù)認(rèn)證的應(yīng)用程序數(shù)據(jù)很大程度在服務(wù)水平上相互分離,這種分離直接涉及到數(shù)據(jù)基礎(chǔ)設(shè)施。在某些情況下,這些應(yīng)用程序或許有可以直接訪問存儲(chǔ)/數(shù)據(jù)服務(wù)的SOA組件。為了提供更多統(tǒng)一的數(shù)據(jù)完整性和管理,管理服務(wù)器可以作為SOA組件來操作各種數(shù)據(jù)庫系統(tǒng),以數(shù)據(jù)庫特定的方式執(zhí)行常見的任務(wù),如去重和完整性檢查。這種方法更容易適應(yīng)于遺留應(yīng)用和數(shù)據(jù)結(jié)構(gòu),
但它在問數(shù)據(jù)何訪方式上會(huì)破壞SOA即服務(wù)原則,也可能產(chǎn)生數(shù)據(jù)管理的一致性問題。 工具專業(yè)網(wǎng)入口
SOA和水平數(shù)據(jù)模型
毫無疑問水平模型更符合SOA原則,因?yàn)樗鼜氐椎貜腟OA組件中抽象出了數(shù)據(jù)服務(wù)。不過,為了使其有效,有必要對(duì)非關(guān)系型數(shù)據(jù)庫進(jìn)行抽象定義和處理低效率與抽象有關(guān)的流程——SOA架構(gòu)師知道除非小心的避免此類事情否則這將會(huì)成為不可逾越的障礙。
水平的SOA數(shù)據(jù)策略已經(jīng)開始應(yīng)用于適用大數(shù)據(jù)的抽象數(shù)據(jù)。解決這個(gè)問題最常見的方法是MapReduce,可以應(yīng)用于Hadoop形式的云構(gòu)架。Hadoop以及類似的方法可以分發(fā)、管理和訪問數(shù)據(jù),然后集中查詢這一分布式信息的相關(guān)結(jié)果。實(shí)際上,SOA組件應(yīng)將MapReduce和類似數(shù)據(jù)分析功能作為一種查詢功能應(yīng)用。
效率問題
效率問題較為復(fù)雜。因?yàn)樗綌?shù)據(jù)庫模型可能是通過類似大多數(shù)SOA流程的信息服務(wù)總線來完成的,一個(gè)重要的步驟是要確保與該編排相關(guān)的開銷額度保持在最低程度。這可以幫助減少與SOA相關(guān)的數(shù)據(jù)訪問開銷,但它不能克服存儲(chǔ)系統(tǒng)本身的問題。因?yàn)檫@些存儲(chǔ)系統(tǒng)已經(jīng)通過水平模型脫離了SOA組件,很容易被忽略與延遲和數(shù)據(jù)傳輸量相關(guān)的問題,特別地,如果數(shù)據(jù)庫是云分布的,那么使用他們就會(huì)產(chǎn)生可變的網(wǎng)絡(luò)延遲。
上述問題的一個(gè)解決方案是現(xiàn)代分層存儲(chǔ)模式。數(shù)據(jù)庫不是磁盤,而是一組相互連接的高速緩存點(diǎn),其存儲(chǔ)于本地內(nèi)存中,也可能轉(zhuǎn)向固態(tài)硬盤,然后到本地磁盤,最后到云存儲(chǔ)。緩存算法處理這些緩存點(diǎn)之間的活動(dòng),從而來平衡存儲(chǔ)成本(同時(shí)也是平衡同步地更新成本)和性能。
對(duì)于大數(shù)據(jù),它也是經(jīng)?梢詣(chuàng)建適用于大多數(shù)分析的匯總數(shù)據(jù)。例如一個(gè)計(jì)算不同地點(diǎn)車輛數(shù)量的交通遙測(cè)應(yīng)用。這種方法可以產(chǎn)生大量的數(shù)據(jù),但是如果匯總數(shù)據(jù)最后一分鐘還存儲(chǔ)在內(nèi)存中,最后一小時(shí)存儲(chǔ)在閃存中,最后一天存在磁盤上,那么控制應(yīng)用程序所需的實(shí)際時(shí)間可以通過快速訪問資源得到滿足,然而假設(shè)分析時(shí)我們可以使用一些更便宜、更慢的應(yīng)用程序是會(huì)怎樣。
SOA都是抽象的,但當(dāng)抽象隱藏了底層影響性能和響應(yīng)時(shí)間的復(fù)雜性時(shí),這種抽象的危險(xiǎn)程度會(huì)提高。數(shù)據(jù)訪問也是這樣的,因此,SOA架構(gòu)師需要認(rèn)真地考慮抽象與性能之間的平衡關(guān)系,并為其特定的業(yè)務(wù)需求優(yōu)化它。
Hadoop
Hadoop旨在通過一個(gè)高度可擴(kuò)展的分布式批量處理系統(tǒng),對(duì)大型數(shù)據(jù)集進(jìn)行掃描,以產(chǎn)生其結(jié)果。Hadoop項(xiàng)目包括三部分,分別是Hadoop
Distributed File System(HDFS)、HadoopMapReduce編程模型,以及Hadoop Common。
Hadoop平臺(tái)對(duì)于操作非常大型的數(shù)據(jù)集而言可以說是一個(gè)強(qiáng)大的工具。為了抽象Hadoop編程模型的一些復(fù)雜性,已經(jīng)出現(xiàn)了多個(gè)在Hadoop之上運(yùn)行的應(yīng)用開發(fā)語言。Pig、Hive和Jaql是其中的代表。而除了Java外,您還能夠以其他語言編寫map和reduce函數(shù),并使用稱為Hadoop
Streaming(簡(jiǎn)寫為Streaming)的API調(diào)用它們。與流數(shù)據(jù)分析
流定義
從技術(shù)角度而言,流是通過邊緣連接的節(jié)點(diǎn)圖。圖中的每個(gè)節(jié)點(diǎn)都是“運(yùn)算符”或“適配器”,均能夠在某種程度上處理流內(nèi)的數(shù)據(jù)。節(jié)點(diǎn)可以不包含輸入和輸出,也可以包含多個(gè)輸入和輸出。一個(gè)節(jié)點(diǎn)的輸出與另外一個(gè)或多個(gè)節(jié)點(diǎn)的輸入相互連接。圖形的邊緣將這些節(jié)點(diǎn)緊密聯(lián)系在一起,表示在運(yùn)算符之間移動(dòng)的數(shù)據(jù)流。
利用Apache Hadoop等開源項(xiàng)目,通過傳感器、RFID、社交媒體、呼叫中心記錄和其他來源提供的新型數(shù)據(jù)創(chuàng)造價(jià)值。
Streams
即,IBM InfoSphere Streams。在IBMInfoSphere
Streams(簡(jiǎn)稱Streams)中,數(shù)據(jù)將會(huì)流過有能力操控?cái)?shù)據(jù)流(每秒鐘可能包含數(shù)百萬個(gè)事件)的運(yùn)算符,然后對(duì)這些數(shù)據(jù)執(zhí)行動(dòng)態(tài)分析。這項(xiàng)分析可觸發(fā)大量事件,使企業(yè)利用即時(shí)的智能實(shí)時(shí)采取行動(dòng),最終改善業(yè)務(wù)成果。
當(dāng)數(shù)據(jù)流過這些分析組件后,Streams將提供運(yùn)算符將數(shù)據(jù)存儲(chǔ)至各個(gè)位置,或者如果經(jīng)過動(dòng)態(tài)分析某些數(shù)據(jù)被視為毫無價(jià)值,則會(huì)丟棄這些數(shù)據(jù)。你可能會(huì)認(rèn)為Streams與復(fù)雜事件處理(CEP)
系統(tǒng)非相似,不過Streams的設(shè)計(jì)可擴(kuò)展性更高,并且支持的數(shù)據(jù)流量也比其他系統(tǒng)多得多。此外,Streams還具備更高的企業(yè)級(jí)特性,包括高可用性、豐富的應(yīng)用程序開發(fā)工具包和高級(jí)調(diào)度。
出于這樣的目的,許多組織開始啟動(dòng)自己的大數(shù)據(jù)治理計(jì)劃。所謂大數(shù)據(jù)治理,指的是制定策略來協(xié)調(diào)多個(gè)職能部門的目標(biāo),從而優(yōu)化、保護(hù)和利用大數(shù)據(jù),將其作為一項(xiàng)企業(yè)資產(chǎn)。
13 治理計(jì)劃
大數(shù)據(jù)治理計(jì)劃也需要關(guān)注與其他信息治理計(jì)劃類似的問題。這些計(jì)劃必須解決以下問題:
■元數(shù)據(jù)。大數(shù)據(jù)治理需要?jiǎng)?chuàng)建可靠的元數(shù)據(jù),避免出現(xiàn)窘境,例如,一家企業(yè)重復(fù)購買了相同的數(shù)據(jù)集兩次,而原因僅僅是該數(shù)據(jù)集在兩個(gè)不同的存儲(chǔ)庫內(nèi)使用了不同的名稱。
■隱私。企業(yè)需要嚴(yán)格關(guān)注遵守隱私方面的問題,例如利用社交媒體進(jìn)行數(shù)據(jù)分析。
■數(shù)據(jù)質(zhì)量?紤]到大數(shù)據(jù)的龐大數(shù)量和超快速度,組織需要確定哪種級(jí)別的數(shù)據(jù)質(zhì)量屬于“足夠好”的質(zhì)量。
■信息生命周期管理。大數(shù)據(jù)治理計(jì)劃需要制定存檔策略,確保存儲(chǔ)成本不會(huì)超出控制。除此之外,組織需要設(shè)定保留計(jì)劃,以便按照法規(guī)要求合理處置數(shù)據(jù)。
■管理人員。最終,企業(yè)需要招募大數(shù)據(jù)管理員。例如,石油與天然氣公司內(nèi)的勘探開采部門的管理員負(fù)責(zé)管理地震數(shù)據(jù),包括相關(guān)元數(shù)據(jù)在內(nèi)。這些管理員需要避免組織因不一致的命名規(guī)范而付款購買已經(jīng)擁有的外部數(shù)據(jù)。除此之外,社交媒體管理員需要與法律顧問和高級(jí)管理人員配合工作,制定有關(guān)可接受的信息使用方法的策略。
14 相關(guān)問題
對(duì)于大數(shù)據(jù)的存儲(chǔ)問題,以下問題不可忽視:
容量問題
這里所說的“大容量”通?蛇_(dá)到PB級(jí)的數(shù)據(jù)規(guī)模,因此,海量數(shù)據(jù)存儲(chǔ)系統(tǒng)也一定要有相應(yīng)等級(jí)的擴(kuò)展能力。與此同時(shí),存儲(chǔ)系統(tǒng)的擴(kuò)展一定要簡(jiǎn)便,可以通過增加模塊或磁盤柜來增加容量,甚至不需要停機(jī)。在解決容量問題上,不得不提LSI公司的全新Nytro™智能化閃存解決方案,采用Nytro產(chǎn)品,客戶可以將數(shù)據(jù)庫事務(wù)處理性能提高30倍,并且超過每秒4.0GB1的持續(xù)吞吐能力,非常適用于大數(shù)據(jù)分析。
延遲問題
“大數(shù)據(jù)”應(yīng)用還存在實(shí)時(shí)性的問題。特別是涉及到與網(wǎng)上交易或者金融類相關(guān)的應(yīng)用。有很多“大數(shù)據(jù)”應(yīng)用環(huán)境需要較高的IOPS性能,比如HPC高性能計(jì)算。此外,服務(wù)器虛擬化的普及也導(dǎo)致了對(duì)高IOPS的需求,正如它改變了傳統(tǒng)IT環(huán)境一樣。為了迎接這些挑戰(zhàn),各種模式的固態(tài)存儲(chǔ)設(shè)備應(yīng)運(yùn)而生,小到簡(jiǎn)單的在服務(wù)器內(nèi)部做高速緩存,大到全固態(tài)介質(zhì)可擴(kuò)展存儲(chǔ)系統(tǒng)通過高性能閃存存儲(chǔ),自動(dòng)、智能地對(duì)熱點(diǎn)數(shù)據(jù)進(jìn)行讀/寫高速緩存的LSI
Nytro系列產(chǎn)品等等都在蓬勃發(fā)展。
安全問題
某些特殊行業(yè)的應(yīng)用,比如金融數(shù)據(jù)、醫(yī)療信息以及政府情報(bào)等都有自己的安全標(biāo)準(zhǔn)和保密性需求。雖然對(duì)于IT管理者來說這些并沒有什么不同,而且都是必須遵從的,但是,大數(shù)據(jù)分析往往需要多類數(shù)據(jù)相互參考,而在過去并不會(huì)有這種數(shù)據(jù)混合訪問的情況,大數(shù)據(jù)應(yīng)用催生出一些新的、需要考慮的安全性問題,這就充分體現(xiàn)出利用基于DuraClass™
技術(shù)的LSI SandForce®閃存處理器的優(yōu)勢(shì)了,實(shí)現(xiàn)了企業(yè)級(jí)閃存性能和可靠性,實(shí)現(xiàn)簡(jiǎn)單、透明的應(yīng)用加速,既安全又方便。
成本問題
對(duì)于那些正在使用大數(shù)據(jù)環(huán)境的企業(yè)來說,成本控制是關(guān)鍵的問題。想控制成本,就意味著我們要讓每一臺(tái)設(shè)備都實(shí)現(xiàn)更高的“效率”,同時(shí)還要減少那些昂貴的部件。重復(fù)數(shù)據(jù)刪除等技術(shù)已經(jīng)進(jìn)入到主存儲(chǔ)市場(chǎng),而且還可以處理更多的數(shù)據(jù)類型,這都可以為大數(shù)據(jù)存儲(chǔ)應(yīng)用帶來更多的價(jià)值,提升存儲(chǔ)效率。在數(shù)據(jù)量不斷增長(zhǎng)的環(huán)境中,通過減少后端存儲(chǔ)的消耗,哪怕只是降低幾個(gè)百分點(diǎn),這種錙銖必較的服務(wù)器也只有LSI推出的Syncro™
MX-B機(jī)架服務(wù)器啟動(dòng)盤設(shè)備都能夠獲得明顯的投資回報(bào),當(dāng)今,數(shù)據(jù)中心使用的傳統(tǒng)引導(dǎo)驅(qū)動(dòng)器不僅故障率高,而且具有較高的維修和更換成本。如果用它替換數(shù)據(jù)中心的獨(dú)立服務(wù)器引導(dǎo)驅(qū)動(dòng)器,則能將可靠性提升多達(dá)100倍。并且對(duì)主機(jī)系統(tǒng)是透明的,能為每一個(gè)附加服務(wù)器提供唯一的引導(dǎo)鏡像,可簡(jiǎn)化系統(tǒng)管理,提升可靠性,并且節(jié)電率高達(dá)60%,真正做到了節(jié)省成本的問題。
數(shù)據(jù)的積累
許多大數(shù)據(jù)應(yīng)用都會(huì)涉及到法規(guī)遵從問題,這些法規(guī)通常要求數(shù)據(jù)要保存幾年或者幾十年。比如醫(yī)療信息通常是為了保證患者的生命安全,而財(cái)務(wù)信息通常要保存7年。而有些使用大數(shù)據(jù)存儲(chǔ)的用戶卻希望數(shù)據(jù)能夠保存更長(zhǎng)的時(shí)間,因?yàn)槿魏螖?shù)據(jù)都是歷史記錄的一部分,而且數(shù)據(jù)的分析大都是基于時(shí)間段進(jìn)行的。要實(shí)現(xiàn)長(zhǎng)期的數(shù)據(jù)保存,就要求存儲(chǔ)廠商開發(fā)出能夠持續(xù)進(jìn)行數(shù)據(jù)一致性檢測(cè)的功能以及其他保證長(zhǎng)期高可用的特性。同時(shí)還要實(shí)現(xiàn)數(shù)據(jù)直接在原位更新的功能需求。
靈活性
大數(shù)據(jù)存儲(chǔ)系統(tǒng)的基礎(chǔ)設(shè)施規(guī)模通常都很大,因此必須經(jīng)過仔細(xì)設(shè)計(jì),才能保證存儲(chǔ)系統(tǒng)的靈活性,使其能夠隨著應(yīng)用分析軟件一起擴(kuò)容及擴(kuò)展。在大數(shù)據(jù)存儲(chǔ)環(huán)境中,已經(jīng)沒有必要再做數(shù)據(jù)遷移了,因?yàn)閿?shù)據(jù)會(huì)同時(shí)保存在多個(gè)部署站點(diǎn)。一個(gè)大型的數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施一旦開始投入使用,就很難再調(diào)整了,因此它必須能夠適應(yīng)各種不同的應(yīng)用類型和數(shù)據(jù)場(chǎng)景。
應(yīng)用感知
最早一批使用大數(shù)據(jù)的用戶已經(jīng)開發(fā)出了一些針對(duì)應(yīng)用的定制的基礎(chǔ)設(shè)施,比如針對(duì)政府項(xiàng)目開發(fā)的系統(tǒng),還有大型互聯(lián)網(wǎng)服務(wù)商創(chuàng)造的專用服務(wù)器等。在主流存儲(chǔ)系統(tǒng)領(lǐng)域,應(yīng)用感知技術(shù)的使用越來越普遍,它也是改善系統(tǒng)效率和性能的重要手段,所以,應(yīng)用感知技術(shù)也應(yīng)該用在大數(shù)據(jù)存儲(chǔ)環(huán)境里。
針對(duì)小用戶
依賴大數(shù)據(jù)的不僅僅是那些特殊的大型用戶群體,作為一種商業(yè)需求,小型企業(yè)未來也一定會(huì)應(yīng)用到大數(shù)據(jù)。我們看到,有些存儲(chǔ)廠商已經(jīng)在開發(fā)一些小型的“大數(shù)據(jù)”存儲(chǔ)系統(tǒng),主要吸引那些對(duì)成本比較敏感的用戶。
15 發(fā)展前景
大數(shù)據(jù)的意義是由人類日益普及的網(wǎng)絡(luò)行為所伴生的,受到相關(guān)部門、企業(yè)采集的,蘊(yùn)含數(shù)據(jù)生產(chǎn)者真實(shí)意圖、喜好的,非傳統(tǒng)結(jié)構(gòu)和意義的數(shù)據(jù) 。
2013年5月10日,阿里巴巴集團(tuán)董事局主席馬云在淘寶十周年晚會(huì)上,將卸任阿里集團(tuán)CEO的職位,并在晚會(huì)上做卸任前的演講,馬云說,大家還沒搞清PC時(shí)代的時(shí)候,移動(dòng)互聯(lián)網(wǎng)來了,還沒搞清移動(dòng)互聯(lián)網(wǎng)的時(shí)候,大數(shù)據(jù)時(shí)代來了
借著大數(shù)據(jù)時(shí)代的熱潮,微軟公司生產(chǎn)了一款數(shù)據(jù)驅(qū)動(dòng)的軟件,主要是為工程建設(shè)節(jié)約資源提高效率。在這個(gè)過程里可以為世界節(jié)約40%的能源。拋開這個(gè)軟件的前景不看,從微軟團(tuán)隊(duì)致力于研究開始,可以看他們的目標(biāo)不僅是為了節(jié)約了能源,更加關(guān)注智能化運(yùn)營。通過跟蹤取暖器、空調(diào)、風(fēng)扇以及燈光等積累下來的超大量數(shù)據(jù),捕捉如何杜絕能源浪費(fèi)!敖o我提供一些數(shù)據(jù),我就能做一些改變。如果給我提供所有數(shù)據(jù),我就能拯救世界!蔽④浭访芩惯@樣說。而智能建筑正是他的團(tuán)隊(duì)專注的事情。
從海量數(shù)據(jù)中“提純”出有用的信息,這對(duì)網(wǎng)絡(luò)架構(gòu)和數(shù)據(jù)處理能力而言也是巨大的挑戰(zhàn)。在經(jīng)歷了幾年的批判、質(zhì)疑、討論、炒作之后,大數(shù)據(jù)終于迎來了屬于它的時(shí)代。2012年3月22日,奧巴馬政府宣布投資2億美元拉動(dòng)大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展,將“大數(shù)據(jù)戰(zhàn)略”上升為國家戰(zhàn)略。奧巴馬政府甚至將大數(shù)據(jù)定義為“未來的新石油”。
相關(guān)個(gè)股:
第一類是與海量數(shù)據(jù)的存儲(chǔ)和處理相關(guān)的公司,包括天澤信息、拓爾思、美亞柏科、恒泰艾普、潛能恒信。
第二類是與數(shù)據(jù)中心建設(shè)與運(yùn)營維護(hù)相關(guān)的公司,包括榮之聯(lián)、天璣科技、銀信科技。
第三類是與視頻化應(yīng)用相關(guān)的公司,包括視頻監(jiān)控業(yè)務(wù)為主的?低暋⒋笕A股份、威創(chuàng)股份、華平股份。
第四類是與智能化和人機(jī)交互概念相關(guān)的公司,關(guān)注科大訊飛、用友軟件、東方國信等。
價(jià)值
大數(shù)據(jù)
谷歌搜索、Facebook的帖子和微博消息使得人們的行為和情緒的細(xì)節(jié)化測(cè)量成為可能。挖掘用戶的行為習(xí)慣和喜好,凌亂紛繁的數(shù)據(jù)背后找到更符合用戶興趣和習(xí)慣的產(chǎn)品和服務(wù),并對(duì)產(chǎn)品和服務(wù)進(jìn)行針對(duì)性地調(diào)整和優(yōu)化,這就是大數(shù)據(jù)的價(jià)值。大數(shù)據(jù)也日益顯現(xiàn)出對(duì)各個(gè)行業(yè)的推進(jìn)力。
大數(shù)據(jù)時(shí)代來臨首先由數(shù)據(jù)豐富度決定的。社交網(wǎng)絡(luò)興起,大量的UGC(互聯(lián)網(wǎng)術(shù)語,全稱為User Generated
Content,即用戶生成內(nèi)容的意思)內(nèi)容、音頻、文本信息、視頻、圖片等非結(jié)構(gòu)化數(shù)據(jù)出現(xiàn)了。另外,物聯(lián)網(wǎng)的數(shù)據(jù)量更大,加上移動(dòng)互聯(lián)網(wǎng)能更準(zhǔn)確、更快地收集用戶信息,比如位置、生活信息等數(shù)據(jù)。從數(shù)據(jù)量來說,已進(jìn)入大數(shù)據(jù)時(shí)代,但硬件明顯已跟不上數(shù)據(jù)發(fā)展的腳步。
以往大數(shù)據(jù)通常用來形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),而提及“大數(shù)據(jù)”,通常是指解決問題的一種方法,并對(duì)其進(jìn)行分析挖掘,進(jìn)而從中獲得有價(jià)值信息,最終衍化出一種新的商業(yè)模式。
雖然大數(shù)據(jù)在國內(nèi)還處于初級(jí)階段,但是商業(yè)價(jià)值已經(jīng)顯現(xiàn)出來。首先,手中握有數(shù)據(jù)的公司站在金礦上,基于數(shù)據(jù)交易即可產(chǎn)生很好的效益;其次,基于數(shù)據(jù)挖掘會(huì)有很多商業(yè)模式誕生,定位角度不同,或側(cè)重?cái)?shù)據(jù)分析。比如幫企業(yè)做內(nèi)部數(shù)據(jù)挖掘,或側(cè)重優(yōu)化,幫企業(yè)更精準(zhǔn)找到用戶,降低營銷成本,提高企業(yè)銷售率,增加利潤(rùn)。
未來,數(shù)據(jù)可能成為最大的交易商品。但數(shù)據(jù)量大并不能算是大數(shù)據(jù),大數(shù)據(jù)的特征是數(shù)據(jù)量大、數(shù)據(jù)種類多、非標(biāo)準(zhǔn)化數(shù)據(jù)的價(jià)值最大化。因此,大數(shù)據(jù)的價(jià)值是通過數(shù)據(jù)共享、交叉復(fù)用后獲取最大的數(shù)據(jù)價(jià)值。在他看來,未來大數(shù)據(jù)將會(huì)如基礎(chǔ)設(shè)施一樣,有數(shù)據(jù)提供方、管理者、監(jiān)管者,數(shù)據(jù)的交叉復(fù)用將大數(shù)據(jù)變成一大產(chǎn)業(yè)。據(jù)統(tǒng)計(jì),大數(shù)據(jù)所形成的市場(chǎng)規(guī)模在51億美元左右,而到2017年,此數(shù)據(jù)預(yù)計(jì)會(huì)上漲到530億美元。
存儲(chǔ)
“這是一場(chǎng)革命,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進(jìn)程。”———哈佛大學(xué)社會(huì)學(xué)教授加里·金.
隨著大數(shù)據(jù)應(yīng)用的爆發(fā)性增長(zhǎng),它已經(jīng)衍生出了自己獨(dú)特的架構(gòu),而且也直接推動(dòng)了存儲(chǔ)、網(wǎng)絡(luò)以及計(jì)算技術(shù)的發(fā)展。畢竟處理大數(shù)據(jù)這種特殊的需求是一個(gè)新的挑戰(zhàn)。硬件的發(fā)展最終還是由軟件需求推動(dòng)的,我們很明顯的看到大數(shù)據(jù)分析應(yīng)用需求正在影響著數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施的發(fā)展。從另一方面看,這一變化對(duì)存儲(chǔ)廠商和其他IT基礎(chǔ)設(shè)施廠商未嘗不是一個(gè)機(jī)會(huì)。隨著結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)量的持續(xù)增長(zhǎng),以及分析數(shù)據(jù)來源的多樣化,此前存儲(chǔ)系統(tǒng)的設(shè)計(jì)已經(jīng)無法滿足大數(shù)據(jù)應(yīng)用的需要。存儲(chǔ)廠商已經(jīng)意識(shí)到這一點(diǎn),他們開始修改基于塊和文件的存儲(chǔ)系統(tǒng)的架構(gòu)設(shè)計(jì)以適應(yīng)這些新的要求。
針對(duì)大數(shù)據(jù)的世界領(lǐng)先品牌存儲(chǔ)企業(yè)有:IBM、EMC、LSISandForce 、
云創(chuàng)存儲(chǔ)、INTEL、惠普、戴爾、甲骨文、日立、賽門鐵克等
16 商業(yè)模式
國內(nèi)網(wǎng)絡(luò)廣告投放正從傳統(tǒng)的面向群體的營銷轉(zhuǎn)向個(gè)性化營銷,從流量購買轉(zhuǎn)向人群購買。雖然市場(chǎng)大環(huán)境不好,但是具備數(shù)據(jù)挖掘能力的公司卻倍受資本青睞。
163大數(shù)據(jù)是一個(gè)很好的視角和工具。從資本角度來看,什么樣的公司有價(jià)值,什么樣的公司沒有價(jià)值,從其擁有的數(shù)據(jù)規(guī)模、數(shù)據(jù)的活性和這家公司能運(yùn)用、解釋數(shù)據(jù)的能力,就可以看出這家公司的核心競(jìng)爭(zhēng)力。而這幾個(gè)能力正是資本關(guān)注的點(diǎn)。
移動(dòng)互聯(lián)網(wǎng)與社交網(wǎng)絡(luò)興起將大數(shù)據(jù)帶入新的征程,互聯(lián)網(wǎng)營銷將在行為分析的基礎(chǔ)上向個(gè)性化時(shí)代過渡。創(chuàng)業(yè)公司應(yīng)用“大數(shù)據(jù)”告訴廣告商什么是正確的時(shí)間,誰是正確的用戶,什么是應(yīng)該發(fā)表的正確內(nèi)容等,這正好切中了廣告商的需求。
社交網(wǎng)絡(luò)產(chǎn)生了海量用戶以及實(shí)時(shí)和完整的數(shù)據(jù),同時(shí)社交網(wǎng)絡(luò)也記錄了用戶群體的情緒,通過深入挖掘這些數(shù)據(jù)來了解用戶,然后將這些分析后的數(shù)據(jù)信息推給需要的品牌商家或是微博營銷公司。
實(shí)際上,將用戶群精準(zhǔn)細(xì)分,直接找到要找的用戶正是社交內(nèi)容背后數(shù)據(jù)挖掘所帶來的結(jié)果。而通過各種算法實(shí)現(xiàn)的數(shù)據(jù)信息交易,正是張文浩為自己的社交數(shù)據(jù)挖掘公司設(shè)計(jì)的盈利模式。這家僅僅五六個(gè)人的小公司拿到了天使投資。未來的市場(chǎng)將更多地以人為中心,主動(dòng)迎合用戶需求,前提就是要找到這部分人群。
在移動(dòng)互聯(lián)網(wǎng)領(lǐng)域,公司從開發(fā)者角度找到數(shù)據(jù)挖掘的方向,通過提供免費(fèi)的技術(shù)服務(wù),幫助開發(fā)者了解應(yīng)用狀況。
17 企業(yè)應(yīng)對(duì)
國內(nèi)的企業(yè)跟美國比較,有一個(gè)很重要的特性就是人口基數(shù)的區(qū)別,中國消費(fèi)群體所產(chǎn)生的這種數(shù)據(jù)量,與國外相比不可同日而語。
伴隨著各種隨身設(shè)備、物聯(lián)網(wǎng)和云計(jì)算云存儲(chǔ)等技術(shù)的發(fā)展,人和物的所有軌跡都可以被記錄。在移動(dòng)互聯(lián)網(wǎng)的核心網(wǎng)絡(luò)節(jié)點(diǎn)是人,不再是網(wǎng)頁。數(shù)據(jù)大爆炸下,怎樣挖掘這些數(shù)據(jù),也面臨著技術(shù)與商業(yè)的雙重挑戰(zhàn)。
首先,如何將數(shù)據(jù)信息與產(chǎn)品和人相結(jié)合,達(dá)到產(chǎn)品或服務(wù)優(yōu)化是大數(shù)據(jù)商業(yè)模式延展上的挑戰(zhàn)之一。
其次,巧婦難為無米之炊,大數(shù)據(jù)的關(guān)鍵還是在于誰先擁有數(shù)據(jù)。
從市場(chǎng)角度來看,大數(shù)據(jù)還面臨其他因素的挑戰(zhàn)。
產(chǎn)業(yè)界對(duì)于大數(shù)據(jù)的熱情持續(xù)升溫的同時(shí),資本也敏銳地發(fā)現(xiàn)了這一趨勢(shì),并開始關(guān)注數(shù)據(jù)挖掘和服務(wù)類公司;诖耍吨袊(jīng)營報(bào)》記者專訪了對(duì)這個(gè)領(lǐng)域深有研究的資深人士。
《中國經(jīng)營報(bào)》:大數(shù)據(jù)越來越多被提及,你覺得數(shù)據(jù)挖掘在商業(yè)模式上有什么新的趨勢(shì)?
答:大數(shù)據(jù)就是實(shí)時(shí)數(shù)據(jù)的處理和實(shí)時(shí)結(jié)果的導(dǎo)向,越來越多的數(shù)據(jù)挖掘前端化,或者說直接為消費(fèi)者感知和直接提供消費(fèi)者所需要的服務(wù),通常形式是誕生了各種各樣的個(gè)性化推薦的服務(wù)。
《中國經(jīng)營報(bào)》:在大數(shù)據(jù)背景下,對(duì)于各種從事數(shù)據(jù)挖掘的公司有什么新的機(jī)會(huì)?
答:大數(shù)據(jù)的前提是數(shù)據(jù)總量的迅速增加以及數(shù)據(jù)的流動(dòng)性增加,前者是由于用戶的行為在手機(jī)和電腦上越來越多,門檻越來越低;另外一個(gè)因素是因?yàn)楦鞣N平臺(tái)的開放導(dǎo)致流動(dòng)性增加,以上兩個(gè)因素的誕生才能催生更多的直接為消費(fèi)者服務(wù)的大數(shù)據(jù)公司。以北京百分點(diǎn)信息科技有限公司(以下簡(jiǎn)稱“百分點(diǎn)”)為例,這家公司的方向、應(yīng)用和誕生時(shí)間,恰好符合了這樣的趨勢(shì)。
《中國經(jīng)營報(bào)》:從投資角度,你怎么看數(shù)據(jù)挖掘類公司的投資價(jià)值和公司前景?
答:我看好以大數(shù)據(jù)為出發(fā)點(diǎn)的商業(yè)模式和電商的后續(xù)服務(wù)產(chǎn)品。它們的前景大方向是符合趨勢(shì)的,但是具體產(chǎn)品和數(shù)據(jù)處理能力,可能是最終成敗的因素。
《中國經(jīng)營報(bào)》:從行業(yè)角度看做大數(shù)據(jù)的門檻在哪里?做數(shù)據(jù)挖掘需要具備哪些重要的因素?
答:門檻主要是如何獲得大量數(shù)據(jù),數(shù)據(jù)的質(zhì)量、相關(guān)性以及是否有好的處理能力和技術(shù),最終應(yīng)用的方向是商業(yè)化的關(guān)鍵。
《中國經(jīng)營報(bào)》:在你看來,IDG投資百分點(diǎn)主要看中哪幾個(gè)關(guān)鍵點(diǎn)?你認(rèn)為百分點(diǎn)所處的競(jìng)爭(zhēng)環(huán)境如何?
答:百分點(diǎn)具有良好的團(tuán)隊(duì)、技術(shù)能力、行業(yè)能力以及研究能力,在它們的創(chuàng)始人之間既有互補(bǔ)又有突出。另外,它們的誕生和發(fā)展符合了大的趨勢(shì),而且相對(duì)又有一點(diǎn)領(lǐng)先。競(jìng)爭(zhēng)環(huán)境主要取決于國內(nèi)互聯(lián)網(wǎng)公司,尤其是大公司對(duì)于開放數(shù)據(jù)的態(tài)度和速度,同時(shí)也包括它們的技術(shù)能力和產(chǎn)品是否能夠不斷地超越用戶的需求。
最早提出“大數(shù)據(jù)”時(shí)代已經(jīng)到來的機(jī)構(gòu)是全球知名咨詢公司麥肯錫。麥肯錫在研究報(bào)告中指出,數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素;而人們對(duì)于海量數(shù)據(jù)的運(yùn)用將預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來。
“麥肯錫的報(bào)告發(fā)布后,大數(shù)據(jù)迅速成為了計(jì)算機(jī)行業(yè)爭(zhēng)相傳誦的熱門概念,也引起了金融界的高度關(guān)注。”隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,數(shù)據(jù)本身是資產(chǎn),這一點(diǎn)在業(yè)界已經(jīng)形成共識(shí)!叭绻f云計(jì)算為數(shù)據(jù)資產(chǎn)提供了保管、訪問的場(chǎng)所和渠道,那么如何盤活數(shù)據(jù)資產(chǎn),使其為國家治理、企業(yè)決策乃至個(gè)人生活服務(wù),則是大數(shù)據(jù)的核心議題,也是云計(jì)算內(nèi)在的靈魂和必然的升級(jí)方向!
事實(shí)上,全球互聯(lián)網(wǎng)巨頭都已意識(shí)到了“大數(shù)據(jù)”時(shí)代,數(shù)據(jù)的重要意義。包括EMC、惠普(微博)、IBM、微軟(微博)在內(nèi)的全球IT
巨頭紛紛通過收購“大數(shù)據(jù)”相關(guān)廠商來實(shí)現(xiàn)技術(shù)整合,亦可見其對(duì)“大數(shù)據(jù)”的重視。 工具專業(yè)網(wǎng)入口
“大數(shù)據(jù)”作為一個(gè)較新的概念,目前尚未直接以專有名詞被我國政府提出來給予政策支持。不過,在2011年12月8日工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃上,把信息處理技術(shù)作為4項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程之一被提出來,其中包括了海量數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分。而另外3項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程,包括信息感知技術(shù)、信息傳輸技術(shù)、信息安全技術(shù),也都與“大數(shù)據(jù)”密切相關(guān)。
18 投資熱點(diǎn)
大數(shù)據(jù)是繼云計(jì)算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革。云計(jì)算主要為數(shù)據(jù)資產(chǎn)提供了保管、訪問的場(chǎng)所和渠道,而數(shù)據(jù)才是真正有價(jià)值的資產(chǎn)。企業(yè)內(nèi)部的經(jīng)營交易信息、物聯(lián)網(wǎng)世界中的商品物流信息,互聯(lián)網(wǎng)世界中的人與人交互信息、位置信息等,其數(shù)量將遠(yuǎn)遠(yuǎn)超越現(xiàn)有企業(yè)IT架構(gòu)和基礎(chǔ)設(shè)施的承載能力,實(shí)時(shí)性要求也將大大超越現(xiàn)有的計(jì)算能力。如何盤活這些數(shù)據(jù)資產(chǎn),使其為國家治理、企業(yè)決策乃至個(gè)人生活服務(wù),是大數(shù)據(jù)的核心議題,也是云計(jì)算內(nèi)在的靈魂和必然的升級(jí)方向。
大數(shù)據(jù)時(shí)代網(wǎng)民和消費(fèi)者的界限正在消弭,企業(yè)的疆界變得模糊,數(shù)據(jù)成為核心的資產(chǎn),并將深刻影響企業(yè)的業(yè)務(wù)模式,甚至重構(gòu)其文化和組織。因此,大數(shù)據(jù)對(duì)國家治理模式、對(duì)企業(yè)的決策、組織和業(yè)務(wù)流程、對(duì)個(gè)人生活方式都將產(chǎn)生巨大的影響。如果不能利用大數(shù)據(jù)更加貼近消費(fèi)者、深刻理解需求、高效分析信息并作出預(yù)判,所有傳統(tǒng)的產(chǎn)品公司都只能淪為新型用戶平臺(tái)級(jí)公司的附庸,其衰落不是管理能扭轉(zhuǎn)的。
因此,大數(shù)據(jù)時(shí)代將引發(fā)新一輪信息化投資和建設(shè)熱潮。據(jù)IDC預(yù)測(cè),到2020年全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,而麥肯錫則預(yù)測(cè)未來大數(shù)據(jù)產(chǎn)品在三大行業(yè)的應(yīng)用就將產(chǎn)生7千億美元的潛在市場(chǎng),未來中國大數(shù)據(jù)產(chǎn)品的潛在市場(chǎng)規(guī)模有望達(dá)到1.57萬億元,給IT行業(yè)開拓了一個(gè)新的黃金時(shí)代。
當(dāng)前我們還處在大數(shù)據(jù)時(shí)代的前夜,預(yù)計(jì)今明兩年將是大數(shù)據(jù)市場(chǎng)的培育期,2014年以后大數(shù)據(jù)產(chǎn)品將會(huì)形成業(yè)績(jī)。 |