版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、大數據技術及應用,1,,2,,3,大數據應用,,目 錄,大數據時代,大數據技術,大數據時代,大數據時代,生活、工作與思維的大變革,Living, working and thinking big changes,一場生活、工作與思維的大變革,大數據開啟了一次重大的時代轉型。就想望遠鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測微生物一樣,大數據正在改變我們的生活以及理解世界的方式,成為新發(fā)明和新服務的源泉,而更多的改變正蓄勢待發(fā)……,大
2、數據,變革生活大數據,變革商業(yè)大數據,變革思維大數據,開啟重大的時代轉型預測是大數據的核心,第一個故事,百貨公司知道女孩懷孕第二個故事,搜索熱詞里的商機第三個故事,阿里知道誰需要貸款第四個故事,中移動挽留流失客戶第五個故事:每天,我們借助大數據完成微信上的互動第六個故事:大數據解救每一位“路盲”第七個故事:大數據協助大閘蟹養(yǎng)殖,大數據時代,大數據時代,國家電網大數據案例,基于PMS(電力生產系統(tǒng))系統(tǒng)數據,構建基于詞
3、云圖分析的文本信息挖掘及可視化實現對電網設備的家族缺陷信息的快速分析。,,7,設備類型,設備型號,斷路器,查詢,LW25-126,信息查詢:,,,,,,,大數據時代,大數據時代,西安公交集團大數據案例 公交司機駕駛行為直接影響到乘客的安全,如全國公交一樣,西安公交集團在每輛公交車上安裝了監(jiān)控設備,每日審核監(jiān)控視頻,對開車過程中出現違章行為的司機進行罰款處理,但由于公交車多,視頻數量極大,這給分析處理視頻的工作人
4、員帶來了很大的工作壓力,因此公交集團希望能夠建立一種快速視頻識別分析手段,以緩解當前這種情況。,如何能讓20多名工作人員從每天10個小時的視頻審核工作中解脫出來???,大數據時代,違章類型:吸煙,違章時間:2014-01-16,違章視頻時間:10:57---10:58,違章車輛:陜A XXXXX,違章人:張XX,通過數據挖掘,使工作人員從每天長達數千小時視頻違章信息篩選工作中脫離出來,將原來需要數十小時的視頻審核工作,縮短為幾個小時完成
5、,大大提高了工作效率。且可以有效避免人為舞弊的情況。,,大數據時代,數據:2014年10月納稅人A申報營業(yè)額為10萬。 信息: 2014年10月納稅人A申報營業(yè)額比去年同期減少了25 %。 知識:原因是納稅人A在華東地區(qū)的渠道銷售不利,或其產品B進入了衰退期,還是公司整體營銷活動落后,競爭者強力促銷導致?或是其它原因。針對這一問題公司應對的策略是什么? 智慧:應對的行動方案可能有多種,但(戰(zhàn)略)選擇哪個靠智慧。行動則又會產生新的交
6、易數據。,大數據時代,大數據時代的思維變革,“更多”-不是隨機樣本,而是全體數據,當數據處理技術已經發(fā)生翻天覆地的變化時,在大數據時代進行抽樣分析就像在汽車時代騎馬一樣。一切都改變了,我們需要的是所有的數據,“樣本=總體”。,讓數據“發(fā)聲”小數據時代的隨機采樣,最少的數據獲得最多的信息全數據模式,樣本=總體,大數據時代,“更雜”-滿足精確性,包容混雜性,執(zhí)迷于精確性是信息缺乏時代和模擬時代的產物。只有5%的數據是有框架且能適用于傳統(tǒng)
7、數據庫的。如果不能接受混亂,剩下95%的非框架數據都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶。,允許不精確大數據的簡單算法比小數據的復雜算法更有效紛繁的數據越多越好混雜性,不是竭力避免,而是標準途徑新的數據庫設計的誕生,大數據時代的思維變革,大數據時代,“更好”-不是因果關系,而是相關關系,知道“是什么”就夠了,沒必要知道“為什么”。在大數據時代,我們不必非得知道現象背后的原因,而是要讓數據自己“發(fā)聲”
8、。,關聯物,預測的關鍵“是什么”,而不是“為什么”改變,從操作方式開始大數據,改變人類探索世界的方法,大數據時代的思維變革,大數據時代,大數據時代的商業(yè)變革,“數據化”-一切皆可“量化”,大數據發(fā)展的核心動力來源于人類測量、記錄和分析世界的渴望。信息技術變革隨處可見,但是如今信息技術變革的重點在“T”(技術)上,而不是在“I”(信息)上。現在,我們是時候把聚光燈打向“I”,開始關注信息本身了。,數據,從最不可能的地方提取出來數據
9、化,不是數字化量化一切,數據化的核心當文字變成數據當方位變成數據當溝通成為數據一切事物的數據化,大數據時代,大數據時代的商業(yè)變革,“價值”-“取之不盡,用之不竭”的數據創(chuàng)新,數據就像一個神奇的鉆石礦,當它的首要價值被發(fā)掘后仍能不斷給予。它的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而絕大部分都隱藏在表面之下。,數據創(chuàng)新1:數據的再利用數據創(chuàng)新2:重組數據數據創(chuàng)新3:可擴展數據數據創(chuàng)新4:數據的折舊值數據
10、創(chuàng)新5:數據廢氣數據創(chuàng)新6:開放數據給數據估值,大數據時代,大數據時代的商業(yè)變革,“角色定位”-數據、技術與思維的三足鼎立,微軟以1.1億美元的價格購買了大數據公司Farecast,而兩年后谷歌則以7億美元的價格購買了給Farecast提供數據的ITA Software公司。如今,我們正處在大數據時代的早期,思維和技術是最有價值的,但是最終大部分價值還是必須從數據本身來挖掘。,大數據價值的3大構成大數據掌控公司大數據技術公司大
11、數據思維公司和個人全新的數據中間商專家的消亡與數據科學家的崛起大數據,決定企業(yè)的競爭力,大數據時代,大數據時代的管理變革,“風險”-讓數據主宰一切的隱憂,我們時刻都暴露在“第三只眼”之下:亞馬遜監(jiān)視著我們的購物習慣,谷歌監(jiān)視著我們的網頁瀏覽習慣,而微博似乎什么都知道,不僅竊聽到了我們心中的“TA”,還有我們的社交關系網。,無處不在的“第三只眼”我們的隱私被二次利用了預測與懲罰,不是因為“所做”,而是因為“將做”數據獨裁掙脫
12、大數據的困境,大數據時代,“掌控”-責任與自由并舉的信息管理,當世界開始邁向大數據時代時,社會也將經歷類似的地殼運動。在改變人類基本的生活與思考方式的同時,大數據早已在推動人類信息管理準則上重新定位。然而,不同于印刷革命,我們沒有幾個世紀的時間去適應,我們也許只有幾年時間。,管理變革1:隱私保護,從個人許可到讓數據使用者承擔責任管理變革2:個人動因VS預測分析管理變革3:打破黑盒子,大數據程序員的崛起管理變革4:企業(yè)和行業(yè)應用突破
13、,大數據時代的管理變革,大數據時代,正在發(fā)生的未來,大數據并不是一個充斥著算法和機器的冰冷世界,人類的作用依然無法被完全替代。大數據為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的未來。,1,,2,,3,大數據應用,,目 錄,大數據技術,大數據時代,大數據技術,,,認知,,,初識,,大數據算法與理論大數據系統(tǒng)與實踐NoSQLHadoop,,,大數據帶來的思維變化大數據帶來的價值鏈大數據發(fā)展
14、現狀與未來大數據 vs 人類,,什么是大數據大數據的特性大數據與傳統(tǒng)技術的關系大數據與其他新興技術的關系,,深入,,大數據技術,什么是大數據,百度百科:大數據(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業(yè)經營決策更積極目的的資訊。維基百科:大數據是由數量巨大、結構復雜、類型眾多數據構成的數據集合,是基于云計算的數據處理與應用模式,
15、通過數據的整合共享,交叉復用形成的智力資源和知識服務能力。學術觀點:大數據是由大量異構的數據組成的數據集合,它是可以應用合理的數學算法或工具從中找出有價值的信息,為人們帶來利益的一門新興學科。,大數據技術,2009年,甲型H1N1流感在全球爆發(fā)傳播,為了發(fā)現和控制疫情,各國政府和衛(wèi)生相關部門付出了巨大努力,但得到的數據仍然滯后一兩周,而Google對人們的搜索的歷史記錄進行處理,建立合理的數學模型后,得到的預測結果與官方的數據相關性高
16、達97%,能夠立刻判斷出流感是從哪里傳播出來的,沒有一兩周的滯后。Google處理了5000萬條歷史記錄、4.5億個不同的數學模型。,什么是大數據,大數據技術,Farecast是一個對機票價格進行預測的公司,幫助消費者抓住最佳購買機票的時機,使乘客節(jié)省很多錢。最初預測系統(tǒng)建立在41天之內的12000個價格樣本基礎上,數據是從旅游網站上抓取的,如今已經擁有超過2000億條飛行記錄。系統(tǒng)只推測機票的價格何時最便宜,同時分析是什么原因導
17、致的價格下降。,Farecast→Bing,什么是大數據,大數據技術,,,大數據的特性,,更關注相關性,,,,,,,,主要用于預測,,數據量巨大,,,,,實時性要求高,,,,大數據的特征,大數據技術,大數據是在傳統(tǒng)數據庫學科的分支-數據倉庫與數據挖掘的基礎上進一步發(fā)展起來的。但有兩點比較主要的不同:結構化程度傳統(tǒng)數據庫保存的是結構化或者半結構化的數據,以二維表或者標準XML文件的方式存儲數據,由于結構清晰,處理相對容易;
18、大數據面向的是一切計算機可以存儲的數據格式,包括互聯網上的各種網頁、圖片、音頻、視頻,包括辦公文檔、報表,包括人們在搜索引擎中輸入的關鍵詞、在社交網絡中的留言、喜好,也包括各種傳感器自動收集的監(jiān)控結果等等,顯然不同的格式處理起來更加困難。異常數據的處理傳統(tǒng)數據庫通常把異常數據先剔除,應用在需要高精確度的領域,如銀行對每個賬戶的管理;大數據則允許異常數據存在,更多應用在預測方面,找出大量數據中隱藏的關聯關系,少量異常數據不會對總體結
19、果產生影響。,大數據與傳統(tǒng)數據庫的區(qū)別,大數據技術,大數據、物聯網、云計算、移動通信等都是近年涌現出來的新興概念,彼此之間不是孤立的,而是存在著內部聯系。,大數據與其他新興技術的關系,大數據技術,處理的對象往往是全部數據,而不是部分數據的采樣采樣的不合理會導致預測結果的偏差,在大數據時代,依靠強大的數據處理能力,應該去處理全部的數據。不再執(zhí)迷于精確性精確的、規(guī)范化的、可以被傳統(tǒng)數據庫處理的數據只占全部數據的5%,必須接受不精確性才
20、能處理另外95%的數據。錯誤的數據是客觀存在的,竭力避免它就失去了應有的客觀性和公平性。大數據的簡單算法比小數據的復雜算法更有效。更加關注相關性,而不是因果性預測依靠的是相關性。很多情況下知道“是什么”即可,不必知道“為什么”。,大數據帶來思維方式的變化,大數據技術,,,,數據,數據的掌控者,擁有或者可以收集大量數據的公司。海量的數據就是財富,可以考慮自己分析或者賣數據給其他公司。,,,,技術,技術供應商或者分析公司。掌握了從
21、海量數據中分析出有用信息的技能或者工具,但本身不一定擁有數據。,,,,思維,有創(chuàng)新思維的人或者公司。他們對大數據敏感,有怎樣挖掘數據的新價值的獨特想法。,大數據的價值鏈,大數據技術,大數據 = 海量數據 + 復雜類型的數據,海量交易數據:企業(yè)/機構的經營交易信息主要包括聯機交易數據和聯機分析數據,是結構化的、通過關系數據庫進行管理和訪問的靜態(tài)、歷史數據。通過這些數據,我們能了解過去發(fā)生了什么。,大數據包括:交易數據和交互數據集在內的
22、所有數據集,海量交互數據:源于互聯網的社交媒體數據構成(日志和非結構化數據);源于物聯網的設備和傳感器采集數據(日志和非結構化數據);源于GPS和地理定位映射數據;醫(yī)療/監(jiān)控產生的海量圖像文件;科學計算/電子郵件等等??梢愿嬖V我們未來可能會發(fā)生什么。,海量數據處理:大數據的涌現已經催生出了設計用于數據密集型處理的架構。例如在商用硬件群中運行的各種數據挖掘和分析系統(tǒng)。,大數據處理,大數據技術,分析技術:數據處理:自然語言、視
23、頻圖像處理技術抽樣統(tǒng)計分析:A/B test; top N排行榜;地域占比;文本情感分析數據挖掘:關聯規(guī)則分析;分類;聚類模型預測:預測模型;機器學習;建模仿真大數據技術:數據采集:ETL工具數據存取:關系數據庫;NoSQL;SQL等基礎架構支持:云存儲;分布式文件系統(tǒng)等計算結果展現:云計算;標簽云;關系圖等,多元數據:結構化數據:海量數據的查詢、統(tǒng)計、更新等操作效率低非結構化數據圖片、視頻、word、
24、pdf、ppt等文件存儲不利于檢索、查詢和存儲半結構化數據轉換為結構化存儲按照非結構化存儲,存儲計算框架:Hadoop(MapReduce技術)分布式文件系統(tǒng),大數據處理,大數據技術,行業(yè)應用逐漸趨向大數據處理2. 傳統(tǒng)的信息平臺無 法實現海量數據面臨存儲和 處理的瓶頸,大數據處理,大數據技術,過去,現在,,,,,,,高性能計算,企業(yè),中小企業(yè),,,,,萬億字節(jié),千兆字節(jié),兆字節(jié),千萬億字節(jié),
25、萬億字節(jié),千兆字節(jié),面臨的新難題-如何處理大規(guī)模數據,,,大數據技術,采用完全無共享(Share-Nothing)系統(tǒng)架構,大數據技術,,,,應用程序通過分布式系統(tǒng)訪問數據,,所有計算/存儲節(jié)點間自由交換數據,,,每一個計算/存儲節(jié)點運行獨立的數據庫,查詢,海量并行處理結構(MPP),大數據技術,,,,,,,,,,,傳統(tǒng)并行運算架構,運算,存儲,傳統(tǒng)存儲架構,,,,,,,,,海量數據高性能計算與存儲,傳統(tǒng)存儲架構共享存儲訪問模式;
26、計算與存儲分離;僅適合于計算相關數據量較小的高并發(fā)、計算密集型應用,大數據環(huán)境下:存儲將成為訪問的性能瓶頸;海量文件的管理、訪問難題;傳統(tǒng)盤陣數據冗余保護機制不能滿足高性能要求。,大數據技術,,,,,,,,,,,,,,,,,,,,,,計算存儲節(jié)點=并行式運算 + 分布式存儲,大數據并行計算架構,分布式文件系統(tǒng),計算與存儲一體,計算向數據集中,高效專用計算存儲節(jié)點完全解決應用、并發(fā)、同步與一致性等問題處理和計算任務之
27、間實現無依賴,具有高系統(tǒng)延展性 (Scale-Out)分布式文件系統(tǒng),提供高效的海量數據存儲訪問與管理應用:地質勘探生命科學非線編媒資管理動畫渲染等高性能運算,,,,,,,,,,,,海量數據高性能計算與存儲,大數據技術,,,,40GE Infiniband或者160GB萬兆,SureCloud分布數據庫(計算能力),,SureCloud分布式分布式存儲(存儲能力),設計超大規(guī)模數據的關聯計算使用節(jié)點高速緩沖區(qū)支
28、持連續(xù)復雜計算,大容量的海量數據存儲高性能IO全冗余平滑擴容,,,,,,,,數據服務,,,獲取復雜的大數據處理結果,開放的應用,開放的應用,開放的應用,直接數據提取,,大數據數據倉庫,大數據技術,分布式數據庫,分布式物理節(jié)點,自動部署,節(jié)點監(jiān)控,資源監(jiān)管,動態(tài)調度,分布式文件系統(tǒng),QFS,HDFS,SDFS,NoSQL SDDB,Cacendra,大數據挖掘,應用,Map/Reduce,統(tǒng)一智能管理,大數據接口,訪問權限管理,大數據
29、存儲,自動化部署配置,監(jiān)控與資源管理,,,大數據管理,大數據采集,輔助工具,,Hbase,Mango DB,,,,大數據計算應用,醫(yī)療云,政務云,物聯網,行業(yè)應用,金融,電信,政府,大數據技術,應用1,應用2,應用N,大數據處理平臺,大數據技術,泛互聯網數據,機器數據,行業(yè)內容數據,,焦點,,挖掘價值,,面向行業(yè),,關鍵技術,,,,基于泛互聯網內容的準實時輿情監(jiān)測和用戶行為分析,基于機器設備數據的生產狀態(tài)實時監(jiān)測和統(tǒng)計分析,基于行業(yè)內容
30、數據的海量分布式存儲和查詢,各級/地政府;輿情監(jiān)測個人消費品制造/零售;精準營銷、電商、客服、反向創(chuàng)新金融/電信;精準營銷、客服,電力/電網/石油;設備、管線狀態(tài)和故障監(jiān)測自動化工業(yè)制造;設備狀態(tài)監(jiān)測以管控產品質量復雜設備運營;狀態(tài)監(jiān)測,公安/海關;人臉/指紋識別身份醫(yī)療/交通;影像/圖片提取價值數據衛(wèi)星/基因科研;復雜內容計算稅務數據倉庫,新華社與媒體政府,公安電信客戶、基地中心,電力、電網中石油、中石化電信大
31、型制造業(yè),氣象局交通研究院Smart City銀行歷史庫,用戶行為分析NoSQL-分布式存儲和查詢查詢和搜索實時過濾和聚合業(yè)務分析SureSaveBDP,用戶行為分析NoSQL-分布式存儲和查詢實時過濾和聚合業(yè)務分析SureSaveBDP,NoSQL-分布式存儲和查詢SureSaveBDP,大數據技術,,采集/挖掘,分析,,決策,導入的是數據,取出的是價值,存儲,計算,訪問,,結構化數據的導入,非結構化數據的導
32、入,ETL,結構展現,分析決策模型,分析決策工具,分布存儲,數據挖掘,大數據技術,分布式文件存儲,分布式結構化數據存儲,數據處理技術,分布式計算框架,,分布式索引,查詢,檢索,分析,挖掘,結構化數據,數據存儲技術,數據索引技術,數據計算技術,數據訪問技術,數據智能技術,可擴展的體系結構,數據采集技術,大數據解決的不是單一的一個產品能夠解決的,它需要一整套的解決方案,它要融合很多傳統(tǒng)的、新的技術,包含了很多不同的產品和功能模塊,大數據技術
33、,大數據系統(tǒng),大數據技術,大數據存儲問題文件存儲千萬級的大文件存儲:如視頻億級的中等文件存儲:如文檔十億級的小文件存儲:如圖片縮略圖不同文件存儲對于系統(tǒng)需求不同結構化數據億級的結構化數據存儲查詢、統(tǒng)計、更新等操作效率低,大數據系統(tǒng)-存儲,大數據技術,大數據存儲的最主要的論文CAP Theorem Consistency, Availability and Partition ToleranceGoogle的G
34、FS和BigTableGFS一種存儲海量大文件的存儲系統(tǒng)BigTable提出了一種Schemaless的表數據模型Amazon的DynamoDynamo的模型更簡單,它將數據按key進行hash存儲,K-V StoreGossip protocol (discovery and error detection)Distributed key-value data storeEventual consistency,大數據技
35、術,C,A,P,RelationalKey-ValueColumn-OrientedDocument-Oriented,RDBMS(Oracle,MySQL),Aster Data Vertica,MongoDB,TerrastoreHyperTable,HbaseRedis,Berkeley DB,Scalaris,Dynamo,Voldemort,TokyoCabinetCassandraCouchDB,Riak,所
36、有的客戶端有統(tǒng)一的數據視圖,網絡出現分區(qū)時仍能夠正常運行,客戶端在任意時間都可以讀寫,大數據技術,NoSQL NoSQL是Not Only SQL的縮寫,而不是Not SQL,它不一定遵循傳統(tǒng)數據庫的一些基本要求,比如說遵循SQL標準、ACID屬性、表結構等等。,大數據技術,NoSQL系統(tǒng)提高數據服務的交付能力,解決了數據集中與共享的問題,數據存儲的高可擴展性,即使數據量達到PB級別,存儲仍然可以在一定的成本范圍內擁有
37、良好的可擴展性支持大量的并發(fā)執(zhí)行和高效的分析型處理,大數據技術,大數據計算問題海量數據帶來計算快速性難以保證結構變化導致計算模式變更大數據處理解決方案MapReduce技術流計算技術:twitter的storm和yahoo的S4,大數據技術,MapReduce是一種常用的分布式編程模型,用于大規(guī)模數據集(通常大于1TB)的并行運算。,Local FS,Local FS,,,,,HTTP GET,大數據技術,On-line
38、MapReduce使用Map-Reduce的流水線執(zhí)行機制,進行Map和Reduce任務的動態(tài)調度,,,,,,,大數據技術,大數據上的統(tǒng)計分析:Hive建立在Hadoop/MapReduce上的數據倉庫系統(tǒng)提供HQL語句實現對Hadoop上的數據查詢和分析機制,大數據技術,統(tǒng)計分析套件,基于Hive及輔助索引技術,實現快速的數據統(tǒng)計分析微博日志分析50億條/天統(tǒng)計登陸人數/5分鐘,大數據技術,分析結果應用,大數據技術,大數據
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論