big data - 中國大數(shù)據(jù)--中國大數(shù)據(jù)_第1頁
已閱讀1頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、BIG DATA,--Prepared By xindong,不知道BIG DATA? 你out了!,前瞻來看,隨著互聯(lián)網(wǎng)對網(wǎng)民的理解,網(wǎng)民對網(wǎng)絡的反作用,互聯(lián)網(wǎng)將變得越來越智能。它在滿足你需求的同時,也在創(chuàng)造新的需求。前者的代表是Google,后者的典型則是Facebook。谷歌的盈利在于所有的軟件應用都是在線的。用戶在免費使用這些產(chǎn)品的同時,把個人的行為、喜好等信息也免費的送給了Google。因此Google的產(chǎn)品線越豐富,他對用

2、戶的理解就越深入,他的廣告就越精準。廣告的價值就越高。這是正向的循環(huán),谷歌好用的、免費得軟件產(chǎn)品,換取對用戶的理解;通過精準的廣告,找到生財之道。顛覆了微軟賣軟件拷貝賺錢的模式。成為互聯(lián)網(wǎng)的巨擘。,互聯(lián)網(wǎng)越來越智能,Google精確掌握用戶行為、獲取需求,微博為新浪帶來巨大價值,馬云的判斷來自于數(shù)據(jù)分析,“2008年初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑,歐美對中國采購在下滑。海關是賣了貨,出去以后再獲得數(shù)據(jù);而我們提前半年時間從詢

3、盤上推斷出世界貿(mào)易發(fā)生變化了?!?馬云對未來的預測,是建立在對用戶行文分析的基礎上。通常而言,買家在采購商品前,會比較多家供應商的產(chǎn)品,反映到阿里巴巴網(wǎng)站統(tǒng)計數(shù)據(jù)中,就是查詢點擊的數(shù)量和購買點擊的數(shù)量會保持一個相對的數(shù)值,綜合各個維度的數(shù)據(jù)可建立用戶行為模型。因為數(shù)據(jù)樣本巨大,保證用戶行為模型的準確性。因此在這個案例中,詢盤數(shù)據(jù)的下降,自然導致買盤的下降。騰訊在天津投資建立亞洲最大的數(shù)據(jù)中心;百度也在投資建立大數(shù)據(jù)處理中心;新浪推出

4、企業(yè)微博產(chǎn)品,提供精準的數(shù)據(jù)分析服務。,Gartner 2011年技術成熟度曲線,大數(shù)據(jù)處於高速發(fā)展期,技術演進歷史揭示未來是大數(shù)據(jù)驅(qū)動的智慧型經(jīng)濟模式,什麼才是大數(shù)據(jù)?,指數(shù)型增長的海量數(shù)據(jù),海量數(shù)據(jù)就是大數(shù)據(jù)嗎?,大數(shù)據(jù)就是雲(yún)計算嗎?,大數(shù)據(jù)的4V特性,體量Volume,多樣性Variety,價值密度Value,速度Velocity,非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉

5、庫的10倍到50倍,大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義,大量的不相關信息對未來趨勢與模式的可預測分析深度復雜分析(機器學習、人工智能Vs傳統(tǒng)商務智能(咨詢、報告等),實時分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效,Value 價值,挖掘大數(shù)據(jù)的價值類似沙里淘金,從海量數(shù)據(jù)中挖掘稀疏但珍貴的信息.價值密度低,是大數(shù)據(jù)的一個典型特征.,Var

6、iety 多樣性,企業(yè)內(nèi)部的經(jīng)營交易信息;物聯(lián)網(wǎng)世界中商品,物流信息;互聯(lián)網(wǎng)世界中人與人交互信息,位置信息等是大數(shù)據(jù)的主要來源. 能夠在不同的數(shù)據(jù)類型中,進行交叉分析的技術,是大數(shù)據(jù)的核心技術之一.語義分析技術,圖文轉(zhuǎn)換技術,模式識別技術,地理信息技術等,都會在大數(shù)據(jù)分析時獲得應用.,Velocity 速度,1s 是臨界點.對于大數(shù)據(jù)應用而言,必須要在1秒鐘內(nèi)形成答案,否則處理結(jié)果就是過時和無效的.實時處理的要求,是區(qū)別

7、大數(shù)據(jù)引用和傳統(tǒng)數(shù)據(jù)倉庫技術,BI技術的關鍵差別之一.,Volume 數(shù)據(jù)量,PB是大數(shù)據(jù)層次的臨界點. KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB,對大數(shù)據(jù)的進一步理解,大數(shù)據(jù)比云計算更為落地,商業(yè)模式驅(qū)動,應用需求驅(qū)動,,云計算本身也是大數(shù)據(jù)的一種業(yè)務模式,大數(shù)據(jù)不僅僅是“大”,多大?PB 級,比大更重要的是數(shù)據(jù)的復雜性,有時甚至大數(shù)據(jù)中的小數(shù)

8、據(jù)如一條微博就具有顛覆性的價值,軟件是大數(shù)據(jù)的引擎,和數(shù)據(jù)中心(Data Center) 一樣,軟件是大數(shù)據(jù)的驅(qū)動力.軟件改變世界!,大數(shù)據(jù)生態(tài):軟件是引擎,,大數(shù)據(jù)的應用不僅僅是精準營銷,通過用戶行為分析實現(xiàn)精準營銷是大數(shù)據(jù)的典型應用,但是大數(shù)據(jù)在各行各業(yè)特別是公共服務領域具有廣闊的應用前景,消費行業(yè),金融服務,食品安全,醫(yī)療衛(wèi)生,軍事,交通環(huán)保,電子商務,氣象,管理大數(shù)據(jù)“易”,理解大數(shù)據(jù)“難”,目前大數(shù)據(jù)管理多從架構(gòu)和并行等方

9、面考慮,解決高并發(fā)數(shù)據(jù)存取的性能要求及數(shù)據(jù)存儲的橫向擴展,但對非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容理解仍缺乏實質(zhì)性的突破和進展,這是實現(xiàn)大數(shù)據(jù)資源化、知識化、普適化的核心.非結(jié)構(gòu)化海量信息的智能化處理:自然語言理解、多媒體內(nèi)容理解、機器學習等.,大數(shù)據(jù)為什么重要?,更高一層數(shù)據(jù)層面整合企業(yè)內(nèi)外部,更高數(shù)據(jù)層面整合,利用用戶”行為指紋”創(chuàng)造新商機,用戶在線的每一次點擊,每一次評論,每一個視頻點播,就是大數(shù)據(jù)的典型來源?;ヂ?lián)網(wǎng)企業(yè)之所以取得令人矚目的成

10、績,其核心的本質(zhì)就是包括用戶網(wǎng)絡操作的大數(shù)據(jù),進行記錄和分析,形成用戶“行為指紋”,從而洞悉用戶的潛在的、真實的需求,形成預判。這是傳統(tǒng)企業(yè)花費重金都難以企及的夢想。所有傳統(tǒng)的產(chǎn)品公司都只能淪為這種新型用戶平臺級公司的附庸。,大數(shù)據(jù)組成和展現(xiàn)方式?,,,,基于SQL語言: 面對OLAP的傳統(tǒng)行和列,不基于SQL或map-reduce的: 由谷歌率先發(fā)起,數(shù)據(jù)流: 基于運行商數(shù)據(jù)直接生成任意圖形,,,,,,數(shù)據(jù)入口/匯聚,數(shù)據(jù)平臺,分

11、析,,,,,傳統(tǒng)交付模式 - 單片或基于設備的解決方案,,云: 能夠充分利用物理設施的彈性,以實現(xiàn)處理快速增長數(shù)據(jù)的能力,“數(shù)據(jù)庫將演變成一個虛擬的,基于云計算,超級可擴展的分布式平臺。”- Forrester analyst Jim Kobielus,新模式和新技術,展現(xiàn)方式:大型控制中心、移動終端,在多樣性、體量、速度三大主要特征的指引下,大數(shù)據(jù)將有新型的展現(xiàn)方式:大型控制中心和移動終端,實現(xiàn)數(shù)據(jù)的實時處理和快

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論