大數(shù)據(jù)技術及應用培訓_第1頁
已閱讀1頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、大數(shù)據(jù)技術及應用,1,,2,,3,大數(shù)據(jù)應用,,目 錄,大數(shù)據(jù)時代,大數(shù)據(jù)技術,大數(shù)據(jù)時代,大數(shù)據(jù)時代,生活、工作與思維的大變革,Living, working and thinking big changes,一場生活、工作與思維的大變革,大數(shù)據(jù)開啟了一次重大的時代轉型。就想望遠鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測微生物一樣,大數(shù)據(jù)正在改變我們的生活以及理解世界的方式,成為新發(fā)明和新服務的源泉,而更多的改變正蓄勢待發(fā)……,大

2、數(shù)據(jù),變革生活大數(shù)據(jù),變革商業(yè)大數(shù)據(jù),變革思維大數(shù)據(jù),開啟重大的時代轉型預測是大數(shù)據(jù)的核心,第一個故事,百貨公司知道女孩懷孕第二個故事,搜索熱詞里的商機第三個故事,阿里知道誰需要貸款第四個故事,中移動挽留流失客戶第五個故事:每天,我們借助大數(shù)據(jù)完成微信上的互動第六個故事:大數(shù)據(jù)解救每一位“路盲”第七個故事:大數(shù)據(jù)協(xié)助大閘蟹養(yǎng)殖,大數(shù)據(jù)時代,大數(shù)據(jù)時代,國家電網大數(shù)據(jù)案例,基于PMS(電力生產系統(tǒng))系統(tǒng)數(shù)據(jù),構建基于詞

3、云圖分析的文本信息挖掘及可視化實現(xiàn)對電網設備的家族缺陷信息的快速分析。,,7,設備類型,設備型號,斷路器,查詢,LW25-126,信息查詢:,,,,,,,大數(shù)據(jù)時代,大數(shù)據(jù)時代,西安公交集團大數(shù)據(jù)案例 公交司機駕駛行為直接影響到乘客的安全,如全國公交一樣,西安公交集團在每輛公交車上安裝了監(jiān)控設備,每日審核監(jiān)控視頻,對開車過程中出現(xiàn)違章行為的司機進行罰款處理,但由于公交車多,視頻數(shù)量極大,這給分析處理視頻的工作人

4、員帶來了很大的工作壓力,因此公交集團希望能夠建立一種快速視頻識別分析手段,以緩解當前這種情況。,如何能讓20多名工作人員從每天10個小時的視頻審核工作中解脫出來???,大數(shù)據(jù)時代,違章類型:吸煙,違章時間:2014-01-16,違章視頻時間:10:57---10:58,違章車輛:陜A XXXXX,違章人:張XX,通過數(shù)據(jù)挖掘,使工作人員從每天長達數(shù)千小時視頻違章信息篩選工作中脫離出來,將原來需要數(shù)十小時的視頻審核工作,縮短為幾個小時完成

5、,大大提高了工作效率。且可以有效避免人為舞弊的情況。,,大數(shù)據(jù)時代,數(shù)據(jù):2014年10月納稅人A申報營業(yè)額為10萬。 信息: 2014年10月納稅人A申報營業(yè)額比去年同期減少了25 %。 知識:原因是納稅人A在華東地區(qū)的渠道銷售不利,或其產品B進入了衰退期,還是公司整體營銷活動落后,競爭者強力促銷導致?或是其它原因。針對這一問題公司應對的策略是什么? 智慧:應對的行動方案可能有多種,但(戰(zhàn)略)選擇哪個靠智慧。行動則又會產生新的交

6、易數(shù)據(jù)。,大數(shù)據(jù)時代,大數(shù)據(jù)時代的思維變革,“更多”-不是隨機樣本,而是全體數(shù)據(jù),當數(shù)據(jù)處理技術已經發(fā)生翻天覆地的變化時,在大數(shù)據(jù)時代進行抽樣分析就像在汽車時代騎馬一樣。一切都改變了,我們需要的是所有的數(shù)據(jù),“樣本=總體”。,讓數(shù)據(jù)“發(fā)聲”小數(shù)據(jù)時代的隨機采樣,最少的數(shù)據(jù)獲得最多的信息全數(shù)據(jù)模式,樣本=總體,大數(shù)據(jù)時代,“更雜”-滿足精確性,包容混雜性,執(zhí)迷于精確性是信息缺乏時代和模擬時代的產物。只有5%的數(shù)據(jù)是有框架且能適用于傳統(tǒng)

7、數(shù)據(jù)庫的。如果不能接受混亂,剩下95%的非框架數(shù)據(jù)都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶。,允許不精確大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復雜算法更有效紛繁的數(shù)據(jù)越多越好混雜性,不是竭力避免,而是標準途徑新的數(shù)據(jù)庫設計的誕生,大數(shù)據(jù)時代的思維變革,大數(shù)據(jù)時代,“更好”-不是因果關系,而是相關關系,知道“是什么”就夠了,沒必要知道“為什么”。在大數(shù)據(jù)時代,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”

8、。,關聯(lián)物,預測的關鍵“是什么”,而不是“為什么”改變,從操作方式開始大數(shù)據(jù),改變人類探索世界的方法,大數(shù)據(jù)時代的思維變革,大數(shù)據(jù)時代,大數(shù)據(jù)時代的商業(yè)變革,“數(shù)據(jù)化”-一切皆可“量化”,大數(shù)據(jù)發(fā)展的核心動力來源于人類測量、記錄和分析世界的渴望。信息技術變革隨處可見,但是如今信息技術變革的重點在“T”(技術)上,而不是在“I”(信息)上?,F(xiàn)在,我們是時候把聚光燈打向“I”,開始關注信息本身了。,數(shù)據(jù),從最不可能的地方提取出來數(shù)據(jù)

9、化,不是數(shù)字化量化一切,數(shù)據(jù)化的核心當文字變成數(shù)據(jù)當方位變成數(shù)據(jù)當溝通成為數(shù)據(jù)一切事物的數(shù)據(jù)化,大數(shù)據(jù)時代,大數(shù)據(jù)時代的商業(yè)變革,“價值”-“取之不盡,用之不竭”的數(shù)據(jù)創(chuàng)新,數(shù)據(jù)就像一個神奇的鉆石礦,當它的首要價值被發(fā)掘后仍能不斷給予。它的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而絕大部分都隱藏在表面之下。,數(shù)據(jù)創(chuàng)新1:數(shù)據(jù)的再利用數(shù)據(jù)創(chuàng)新2:重組數(shù)據(jù)數(shù)據(jù)創(chuàng)新3:可擴展數(shù)據(jù)數(shù)據(jù)創(chuàng)新4:數(shù)據(jù)的折舊值數(shù)據(jù)

10、創(chuàng)新5:數(shù)據(jù)廢氣數(shù)據(jù)創(chuàng)新6:開放數(shù)據(jù)給數(shù)據(jù)估值,大數(shù)據(jù)時代,大數(shù)據(jù)時代的商業(yè)變革,“角色定位”-數(shù)據(jù)、技術與思維的三足鼎立,微軟以1.1億美元的價格購買了大數(shù)據(jù)公司Farecast,而兩年后谷歌則以7億美元的價格購買了給Farecast提供數(shù)據(jù)的ITA Software公司。如今,我們正處在大數(shù)據(jù)時代的早期,思維和技術是最有價值的,但是最終大部分價值還是必須從數(shù)據(jù)本身來挖掘。,大數(shù)據(jù)價值的3大構成大數(shù)據(jù)掌控公司大數(shù)據(jù)技術公司大

11、數(shù)據(jù)思維公司和個人全新的數(shù)據(jù)中間商專家的消亡與數(shù)據(jù)科學家的崛起大數(shù)據(jù),決定企業(yè)的競爭力,大數(shù)據(jù)時代,大數(shù)據(jù)時代的管理變革,“風險”-讓數(shù)據(jù)主宰一切的隱憂,我們時刻都暴露在“第三只眼”之下:亞馬遜監(jiān)視著我們的購物習慣,谷歌監(jiān)視著我們的網頁瀏覽習慣,而微博似乎什么都知道,不僅竊聽到了我們心中的“TA”,還有我們的社交關系網。,無處不在的“第三只眼”我們的隱私被二次利用了預測與懲罰,不是因為“所做”,而是因為“將做”數(shù)據(jù)獨裁掙脫

12、大數(shù)據(jù)的困境,大數(shù)據(jù)時代,“掌控”-責任與自由并舉的信息管理,當世界開始邁向大數(shù)據(jù)時代時,社會也將經歷類似的地殼運動。在改變人類基本的生活與思考方式的同時,大數(shù)據(jù)早已在推動人類信息管理準則上重新定位。然而,不同于印刷革命,我們沒有幾個世紀的時間去適應,我們也許只有幾年時間。,管理變革1:隱私保護,從個人許可到讓數(shù)據(jù)使用者承擔責任管理變革2:個人動因VS預測分析管理變革3:打破黑盒子,大數(shù)據(jù)程序員的崛起管理變革4:企業(yè)和行業(yè)應用突破

13、,大數(shù)據(jù)時代的管理變革,大數(shù)據(jù)時代,正在發(fā)生的未來,大數(shù)據(jù)并不是一個充斥著算法和機器的冰冷世界,人類的作用依然無法被完全替代。大數(shù)據(jù)為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的未來。,1,,2,,3,大數(shù)據(jù)應用,,目 錄,大數(shù)據(jù)技術,大數(shù)據(jù)時代,大數(shù)據(jù)技術,,,認知,,,初識,,大數(shù)據(jù)算法與理論大數(shù)據(jù)系統(tǒng)與實踐NoSQLHadoop,,,大數(shù)據(jù)帶來的思維變化大數(shù)據(jù)帶來的價值鏈大數(shù)據(jù)發(fā)展

14、現(xiàn)狀與未來大數(shù)據(jù) vs 人類,,什么是大數(shù)據(jù)大數(shù)據(jù)的特性大數(shù)據(jù)與傳統(tǒng)技術的關系大數(shù)據(jù)與其他新興技術的關系,,深入,,大數(shù)據(jù)技術,什么是大數(shù)據(jù),百度百科:大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業(yè)經營決策更積極目的的資訊。維基百科:大數(shù)據(jù)是由數(shù)量巨大、結構復雜、類型眾多數(shù)據(jù)構成的數(shù)據(jù)集合,是基于云計算的數(shù)據(jù)處理與應用模式,

15、通過數(shù)據(jù)的整合共享,交叉復用形成的智力資源和知識服務能力。學術觀點:大數(shù)據(jù)是由大量異構的數(shù)據(jù)組成的數(shù)據(jù)集合,它是可以應用合理的數(shù)學算法或工具從中找出有價值的信息,為人們帶來利益的一門新興學科。,大數(shù)據(jù)技術,2009年,甲型H1N1流感在全球爆發(fā)傳播,為了發(fā)現(xiàn)和控制疫情,各國政府和衛(wèi)生相關部門付出了巨大努力,但得到的數(shù)據(jù)仍然滯后一兩周,而Google對人們的搜索的歷史記錄進行處理,建立合理的數(shù)學模型后,得到的預測結果與官方的數(shù)據(jù)相關性高

16、達97%,能夠立刻判斷出流感是從哪里傳播出來的,沒有一兩周的滯后。Google處理了5000萬條歷史記錄、4.5億個不同的數(shù)學模型。,什么是大數(shù)據(jù),大數(shù)據(jù)技術,Farecast是一個對機票價格進行預測的公司,幫助消費者抓住最佳購買機票的時機,使乘客節(jié)省很多錢。最初預測系統(tǒng)建立在41天之內的12000個價格樣本基礎上,數(shù)據(jù)是從旅游網站上抓取的,如今已經擁有超過2000億條飛行記錄。系統(tǒng)只推測機票的價格何時最便宜,同時分析是什么原因導

17、致的價格下降。,Farecast→Bing,什么是大數(shù)據(jù),大數(shù)據(jù)技術,,,大數(shù)據(jù)的特性,,更關注相關性,,,,,,,,主要用于預測,,數(shù)據(jù)量巨大,,,,,實時性要求高,,,,大數(shù)據(jù)的特征,大數(shù)據(jù)技術,大數(shù)據(jù)是在傳統(tǒng)數(shù)據(jù)庫學科的分支-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基礎上進一步發(fā)展起來的。但有兩點比較主要的不同:結構化程度傳統(tǒng)數(shù)據(jù)庫保存的是結構化或者半結構化的數(shù)據(jù),以二維表或者標準XML文件的方式存儲數(shù)據(jù),由于結構清晰,處理相對容易;

18、大數(shù)據(jù)面向的是一切計算機可以存儲的數(shù)據(jù)格式,包括互聯(lián)網上的各種網頁、圖片、音頻、視頻,包括辦公文檔、報表,包括人們在搜索引擎中輸入的關鍵詞、在社交網絡中的留言、喜好,也包括各種傳感器自動收集的監(jiān)控結果等等,顯然不同的格式處理起來更加困難。異常數(shù)據(jù)的處理傳統(tǒng)數(shù)據(jù)庫通常把異常數(shù)據(jù)先剔除,應用在需要高精確度的領域,如銀行對每個賬戶的管理;大數(shù)據(jù)則允許異常數(shù)據(jù)存在,更多應用在預測方面,找出大量數(shù)據(jù)中隱藏的關聯(lián)關系,少量異常數(shù)據(jù)不會對總體結

19、果產生影響。,大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫的區(qū)別,大數(shù)據(jù)技術,大數(shù)據(jù)、物聯(lián)網、云計算、移動通信等都是近年涌現(xiàn)出來的新興概念,彼此之間不是孤立的,而是存在著內部聯(lián)系。,大數(shù)據(jù)與其他新興技術的關系,大數(shù)據(jù)技術,處理的對象往往是全部數(shù)據(jù),而不是部分數(shù)據(jù)的采樣采樣的不合理會導致預測結果的偏差,在大數(shù)據(jù)時代,依靠強大的數(shù)據(jù)處理能力,應該去處理全部的數(shù)據(jù)。不再執(zhí)迷于精確性精確的、規(guī)范化的、可以被傳統(tǒng)數(shù)據(jù)庫處理的數(shù)據(jù)只占全部數(shù)據(jù)的5%,必須接受不精確性才

20、能處理另外95%的數(shù)據(jù)。錯誤的數(shù)據(jù)是客觀存在的,竭力避免它就失去了應有的客觀性和公平性。大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復雜算法更有效。更加關注相關性,而不是因果性預測依靠的是相關性。很多情況下知道“是什么”即可,不必知道“為什么”。,大數(shù)據(jù)帶來思維方式的變化,大數(shù)據(jù)技術,,,,數(shù)據(jù),數(shù)據(jù)的掌控者,擁有或者可以收集大量數(shù)據(jù)的公司。海量的數(shù)據(jù)就是財富,可以考慮自己分析或者賣數(shù)據(jù)給其他公司。,,,,技術,技術供應商或者分析公司。掌握了從

21、海量數(shù)據(jù)中分析出有用信息的技能或者工具,但本身不一定擁有數(shù)據(jù)。,,,,思維,有創(chuàng)新思維的人或者公司。他們對大數(shù)據(jù)敏感,有怎樣挖掘數(shù)據(jù)的新價值的獨特想法。,大數(shù)據(jù)的價值鏈,大數(shù)據(jù)技術,大數(shù)據(jù) = 海量數(shù)據(jù) + 復雜類型的數(shù)據(jù),海量交易數(shù)據(jù):企業(yè)/機構的經營交易信息主要包括聯(lián)機交易數(shù)據(jù)和聯(lián)機分析數(shù)據(jù),是結構化的、通過關系數(shù)據(jù)庫進行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。,大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內的

22、所有數(shù)據(jù)集,海量交互數(shù)據(jù):源于互聯(lián)網的社交媒體數(shù)據(jù)構成(日志和非結構化數(shù)據(jù));源于物聯(lián)網的設備和傳感器采集數(shù)據(jù)(日志和非結構化數(shù)據(jù));源于GPS和地理定位映射數(shù)據(jù);醫(yī)療/監(jiān)控產生的海量圖像文件;科學計算/電子郵件等等??梢愿嬖V我們未來可能會發(fā)生什么。,海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經催生出了設計用于數(shù)據(jù)密集型處理的架構。例如在商用硬件群中運行的各種數(shù)據(jù)挖掘和分析系統(tǒng)。,大數(shù)據(jù)處理,大數(shù)據(jù)技術,分析技術:數(shù)據(jù)處理:自然語言、視

23、頻圖像處理技術抽樣統(tǒng)計分析:A/B test; top N排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關聯(lián)規(guī)則分析;分類;聚類模型預測:預測模型;機器學習;建模仿真大數(shù)據(jù)技術:數(shù)據(jù)采集:ETL工具數(shù)據(jù)存取:關系數(shù)據(jù)庫;NoSQL;SQL等基礎架構支持:云存儲;分布式文件系統(tǒng)等計算結果展現(xiàn):云計算;標簽云;關系圖等,多元數(shù)據(jù):結構化數(shù)據(jù):海量數(shù)據(jù)的查詢、統(tǒng)計、更新等操作效率低非結構化數(shù)據(jù)圖片、視頻、word、

24、pdf、ppt等文件存儲不利于檢索、查詢和存儲半結構化數(shù)據(jù)轉換為結構化存儲按照非結構化存儲,存儲計算框架:Hadoop(MapReduce技術)分布式文件系統(tǒng),大數(shù)據(jù)處理,大數(shù)據(jù)技術,行業(yè)應用逐漸趨向大數(shù)據(jù)處理2. 傳統(tǒng)的信息平臺無 法實現(xiàn)海量數(shù)據(jù)面臨存儲和 處理的瓶頸,大數(shù)據(jù)處理,大數(shù)據(jù)技術,過去,現(xiàn)在,,,,,,,高性能計算,企業(yè),中小企業(yè),,,,,萬億字節(jié),千兆字節(jié),兆字節(jié),千萬億字節(jié),

25、萬億字節(jié),千兆字節(jié),面臨的新難題-如何處理大規(guī)模數(shù)據(jù),,,大數(shù)據(jù)技術,采用完全無共享(Share-Nothing)系統(tǒng)架構,大數(shù)據(jù)技術,,,,應用程序通過分布式系統(tǒng)訪問數(shù)據(jù),,所有計算/存儲節(jié)點間自由交換數(shù)據(jù),,,每一個計算/存儲節(jié)點運行獨立的數(shù)據(jù)庫,查詢,海量并行處理結構(MPP),大數(shù)據(jù)技術,,,,,,,,,,,傳統(tǒng)并行運算架構,運算,存儲,傳統(tǒng)存儲架構,,,,,,,,,海量數(shù)據(jù)高性能計算與存儲,傳統(tǒng)存儲架構共享存儲訪問模式;

26、計算與存儲分離;僅適合于計算相關數(shù)據(jù)量較小的高并發(fā)、計算密集型應用,大數(shù)據(jù)環(huán)境下:存儲將成為訪問的性能瓶頸;海量文件的管理、訪問難題;傳統(tǒng)盤陣數(shù)據(jù)冗余保護機制不能滿足高性能要求。,大數(shù)據(jù)技術,,,,,,,,,,,,,,,,,,,,,,計算存儲節(jié)點=并行式運算 + 分布式存儲,大數(shù)據(jù)并行計算架構,分布式文件系統(tǒng),計算與存儲一體,計算向數(shù)據(jù)集中,高效專用計算存儲節(jié)點完全解決應用、并發(fā)、同步與一致性等問題處理和計算任務之

27、間實現(xiàn)無依賴,具有高系統(tǒng)延展性 (Scale-Out)分布式文件系統(tǒng),提供高效的海量數(shù)據(jù)存儲訪問與管理應用:地質勘探生命科學非線編媒資管理動畫渲染等高性能運算,,,,,,,,,,,,海量數(shù)據(jù)高性能計算與存儲,大數(shù)據(jù)技術,,,,40GE Infiniband或者160GB萬兆,SureCloud分布數(shù)據(jù)庫(計算能力),,SureCloud分布式分布式存儲(存儲能力),設計超大規(guī)模數(shù)據(jù)的關聯(lián)計算使用節(jié)點高速緩沖區(qū)支

28、持連續(xù)復雜計算,大容量的海量數(shù)據(jù)存儲高性能IO全冗余平滑擴容,,,,,,,,數(shù)據(jù)服務,,,獲取復雜的大數(shù)據(jù)處理結果,開放的應用,開放的應用,開放的應用,直接數(shù)據(jù)提取,,大數(shù)據(jù)數(shù)據(jù)倉庫,大數(shù)據(jù)技術,分布式數(shù)據(jù)庫,分布式物理節(jié)點,自動部署,節(jié)點監(jiān)控,資源監(jiān)管,動態(tài)調度,分布式文件系統(tǒng),QFS,HDFS,SDFS,NoSQL SDDB,Cacendra,大數(shù)據(jù)挖掘,應用,Map/Reduce,統(tǒng)一智能管理,大數(shù)據(jù)接口,訪問權限管理,大數(shù)據(jù)

29、存儲,自動化部署配置,監(jiān)控與資源管理,,,大數(shù)據(jù)管理,大數(shù)據(jù)采集,輔助工具,,Hbase,Mango DB,,,,大數(shù)據(jù)計算應用,醫(yī)療云,政務云,物聯(lián)網,行業(yè)應用,金融,電信,政府,大數(shù)據(jù)技術,應用1,應用2,應用N,大數(shù)據(jù)處理平臺,大數(shù)據(jù)技術,泛互聯(lián)網數(shù)據(jù),機器數(shù)據(jù),行業(yè)內容數(shù)據(jù),,焦點,,挖掘價值,,面向行業(yè),,關鍵技術,,,,基于泛互聯(lián)網內容的準實時輿情監(jiān)測和用戶行為分析,基于機器設備數(shù)據(jù)的生產狀態(tài)實時監(jiān)測和統(tǒng)計分析,基于行業(yè)內容

30、數(shù)據(jù)的海量分布式存儲和查詢,各級/地政府;輿情監(jiān)測個人消費品制造/零售;精準營銷、電商、客服、反向創(chuàng)新金融/電信;精準營銷、客服,電力/電網/石油;設備、管線狀態(tài)和故障監(jiān)測自動化工業(yè)制造;設備狀態(tài)監(jiān)測以管控產品質量復雜設備運營;狀態(tài)監(jiān)測,公安/海關;人臉/指紋識別身份醫(yī)療/交通;影像/圖片提取價值數(shù)據(jù)衛(wèi)星/基因科研;復雜內容計算稅務數(shù)據(jù)倉庫,新華社與媒體政府,公安電信客戶、基地中心,電力、電網中石油、中石化電信大

31、型制造業(yè),氣象局交通研究院Smart City銀行歷史庫,用戶行為分析NoSQL-分布式存儲和查詢查詢和搜索實時過濾和聚合業(yè)務分析SureSaveBDP,用戶行為分析NoSQL-分布式存儲和查詢實時過濾和聚合業(yè)務分析SureSaveBDP,NoSQL-分布式存儲和查詢SureSaveBDP,大數(shù)據(jù)技術,,采集/挖掘,分析,,決策,導入的是數(shù)據(jù),取出的是價值,存儲,計算,訪問,,結構化數(shù)據(jù)的導入,非結構化數(shù)據(jù)的導

32、入,ETL,結構展現(xiàn),分析決策模型,分析決策工具,分布存儲,數(shù)據(jù)挖掘,大數(shù)據(jù)技術,分布式文件存儲,分布式結構化數(shù)據(jù)存儲,數(shù)據(jù)處理技術,分布式計算框架,,分布式索引,查詢,檢索,分析,挖掘,結構化數(shù)據(jù),數(shù)據(jù)存儲技術,數(shù)據(jù)索引技術,數(shù)據(jù)計算技術,數(shù)據(jù)訪問技術,數(shù)據(jù)智能技術,可擴展的體系結構,數(shù)據(jù)采集技術,大數(shù)據(jù)解決的不是單一的一個產品能夠解決的,它需要一整套的解決方案,它要融合很多傳統(tǒng)的、新的技術,包含了很多不同的產品和功能模塊,大數(shù)據(jù)技術

33、,大數(shù)據(jù)系統(tǒng),大數(shù)據(jù)技術,大數(shù)據(jù)存儲問題文件存儲千萬級的大文件存儲:如視頻億級的中等文件存儲:如文檔十億級的小文件存儲:如圖片縮略圖不同文件存儲對于系統(tǒng)需求不同結構化數(shù)據(jù)億級的結構化數(shù)據(jù)存儲查詢、統(tǒng)計、更新等操作效率低,大數(shù)據(jù)系統(tǒng)-存儲,大數(shù)據(jù)技術,大數(shù)據(jù)存儲的最主要的論文CAP Theorem Consistency, Availability and Partition ToleranceGoogle的G

34、FS和BigTableGFS一種存儲海量大文件的存儲系統(tǒng)BigTable提出了一種Schemaless的表數(shù)據(jù)模型Amazon的DynamoDynamo的模型更簡單,它將數(shù)據(jù)按key進行hash存儲,K-V StoreGossip protocol (discovery and error detection)Distributed key-value data storeEventual consistency,大數(shù)據(jù)技

35、術,C,A,P,RelationalKey-ValueColumn-OrientedDocument-Oriented,RDBMS(Oracle,MySQL),Aster Data Vertica,MongoDB,TerrastoreHyperTable,HbaseRedis,Berkeley DB,Scalaris,Dynamo,Voldemort,TokyoCabinetCassandraCouchDB,Riak,所

36、有的客戶端有統(tǒng)一的數(shù)據(jù)視圖,網絡出現(xiàn)分區(qū)時仍能夠正常運行,客戶端在任意時間都可以讀寫,大數(shù)據(jù)技術,NoSQL NoSQL是Not Only SQL的縮寫,而不是Not SQL,它不一定遵循傳統(tǒng)數(shù)據(jù)庫的一些基本要求,比如說遵循SQL標準、ACID屬性、表結構等等。,大數(shù)據(jù)技術,NoSQL系統(tǒng)提高數(shù)據(jù)服務的交付能力,解決了數(shù)據(jù)集中與共享的問題,數(shù)據(jù)存儲的高可擴展性,即使數(shù)據(jù)量達到PB級別,存儲仍然可以在一定的成本范圍內擁有

37、良好的可擴展性支持大量的并發(fā)執(zhí)行和高效的分析型處理,大數(shù)據(jù)技術,大數(shù)據(jù)計算問題海量數(shù)據(jù)帶來計算快速性難以保證結構變化導致計算模式變更大數(shù)據(jù)處理解決方案MapReduce技術流計算技術:twitter的storm和yahoo的S4,大數(shù)據(jù)技術,MapReduce是一種常用的分布式編程模型,用于大規(guī)模數(shù)據(jù)集(通常大于1TB)的并行運算。,Local FS,Local FS,,,,,HTTP GET,大數(shù)據(jù)技術,On-line

38、MapReduce使用Map-Reduce的流水線執(zhí)行機制,進行Map和Reduce任務的動態(tài)調度,,,,,,,大數(shù)據(jù)技術,大數(shù)據(jù)上的統(tǒng)計分析:Hive建立在Hadoop/MapReduce上的數(shù)據(jù)倉庫系統(tǒng)提供HQL語句實現(xiàn)對Hadoop上的數(shù)據(jù)查詢和分析機制,大數(shù)據(jù)技術,統(tǒng)計分析套件,基于Hive及輔助索引技術,實現(xiàn)快速的數(shù)據(jù)統(tǒng)計分析微博日志分析50億條/天統(tǒng)計登陸人數(shù)/5分鐘,大數(shù)據(jù)技術,分析結果應用,大數(shù)據(jù)技術,大數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論