版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、大數(shù)據(jù)分析關(guān)鍵技術(shù),,概述即席查詢批量處理流式計(jì)算,大數(shù)據(jù)計(jì)算分析模式分類,即席查詢Ad-Hoc Query,批量處理Batch ProcessingMap/Reduce,流式計(jì)算Stream Computing,數(shù)據(jù)承載,響應(yīng)時(shí)間,適用場(chǎng)景,磁盤,秒級(jí)(準(zhǔn)實(shí)時(shí)),自然人交互式經(jīng)營(yíng)分析,磁盤,分鐘級(jí)至小時(shí)級(jí)(準(zhǔn)實(shí)時(shí)),事前/事后大批量數(shù)據(jù)處理,內(nèi)存(事件窗口非全量數(shù)據(jù)),秒級(jí)(實(shí)時(shí)),實(shí)時(shí)事件分析實(shí)時(shí)風(fēng)險(xiǎn)干
2、預(yù),針對(duì)不同的業(yè)務(wù)領(lǐng)域,需要采用不同的數(shù)據(jù)計(jì)算分析方式,快速發(fā)現(xiàn)數(shù)據(jù)價(jià)值。,即席查詢,即席查詢(Ad Hoc)是用戶根據(jù)自己的需求,靈活的選擇查詢條件,系統(tǒng)能夠根據(jù)用戶的選擇生成相應(yīng)的統(tǒng)計(jì)報(bào)表。即席查詢與普通應(yīng)用查詢最大的不同是普通的應(yīng)用查詢是定制開發(fā)的,而即席查詢是用戶自定義查詢條件。,即席查詢,Storage,Distribute File System,Column Database,Resource Management,Par
3、allelCompute Framework,SQL Syntax+ Compute Framework,SQL Syntax,MetaData,Batch Processing,Ad-Hoc Query,實(shí)時(shí)性:高,批量處理,Storage,Distribute File System,Column Database,Resource Management,ParallelCompute Framework,SQL Synta
4、x+ Compute Framework,SQL Syntax,MetaData,Batch Processing,Ad-Hoc Query,MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行批量計(jì)算。概念Map和Reduce當(dāng)前的主流實(shí)現(xiàn)是指定一個(gè)Map函數(shù),用來(lái)把一組鍵值對(duì)映射成一組新的鍵值對(duì),指定并發(fā)的Reduce函數(shù),用來(lái)保證所有映射的鍵值對(duì)中的每一個(gè)共享相同的鍵組。形成這種模型的原因是:數(shù)據(jù)的分布式存儲(chǔ)、計(jì)算資源的
5、分布式、并行計(jì)算減少計(jì)算時(shí)長(zhǎng)。,批量處理,實(shí)時(shí)性:低,流式計(jì)算,流數(shù)據(jù)的實(shí)時(shí)計(jì)算注重對(duì)流數(shù)據(jù)的快速高效處理、計(jì)算和分析。其特點(diǎn)是計(jì)算過(guò)程數(shù)據(jù)不落地,所有數(shù)據(jù)在內(nèi)存中完成。其計(jì)算模型是根據(jù)規(guī)則生成容器,當(dāng)數(shù)據(jù)流經(jīng)過(guò)容器時(shí),實(shí)時(shí)產(chǎn)生分析結(jié)果。,流式計(jì)算,InputAdapter,OutputAdapter,Engine Cluster,ClusterManagement,Rule Repository,NoSQL,,,,,,,實(shí)時(shí)性:
6、高,概述即席查詢批量處理流式計(jì)算,Impala Node,Impala架構(gòu),Impalad,Query Planner,Query Coordinator,Query Exec Engine,Common HiveQL & Interface,MetaData,SQL,JDBC,Hive MetaStore,HDFS NN,State Store,Impalad,Query Planner,Query Coordinato
7、r,Query Exec Engine,Impalad,Query Planner,Query Coordinator,Query Exec Engine,Data,HDFS DN,HBase,Data,HDFS DN,HBase,Data,HDFS DN,HBase,Impala Node,Impala Node,Local Direct Reads,,Thrift,,,,Hive架構(gòu),Data,HDFS DN,Task Tracke
8、r,Job Tracker,Name Node,Hadoop,Hive (Over Hadoop 0.20.X),,SQL,JDBC,WUI,Thrift Server,Driver(Compiler, Optimizer, Executor),Meta Store,ThriftServer:JDBC通過(guò)ThriftServer連接到Hive。ThriftServer連接MetaStore來(lái)讀取hive的元數(shù)據(jù)信息。MetaStor
9、e:在關(guān)系型數(shù)據(jù)庫(kù)中存放表/分區(qū)/列元數(shù)據(jù),可以低延遲的快速的訪問(wèn)到需要的元數(shù)據(jù)信息。Driver/QueryCompiler/ExecutionEngine:客戶端提交的HiveSQL首先進(jìn)入Driver,然后Driver會(huì)為此次HiveSQL的執(zhí)行創(chuàng)建一個(gè)Session,Driver維護(hù)整個(gè)session的生命周期。Driver首先將HiveSQL傳送給QueryCompiler,然后由QueryCompiler來(lái)對(duì)用戶提交的Hi
10、veSQL進(jìn)行編譯/檢查/優(yōu)化并最終生成MapReduce任務(wù)。ExecutionEngine會(huì)與Hadoop進(jìn)行交互,將 MapReduce任務(wù)交給Hadoop來(lái)執(zhí)行,并從Hadoop取得最終的執(zhí)行結(jié)果,并返回給用戶。,解析HiveSQL之后生成所MapReduce任務(wù),在運(yùn)行中訪問(wèn)元數(shù)據(jù)信息時(shí),將直接讀取生成的物理計(jì)劃時(shí)產(chǎn)生的plan.xml,此文件會(huì)被放入Hadoop的分布式緩存中,,MapReduce任務(wù)可以從分布式緩存中獲得
11、相應(yīng)的元數(shù)據(jù)。,Impala相對(duì)于Hive的優(yōu)勢(shì),Impala不需要把中間結(jié)果寫入磁盤,省掉了大量的I/O開銷。,省掉了MapReduce作業(yè)啟動(dòng)的開銷。MapReduce啟動(dòng)task的速度很慢(默認(rèn)每個(gè)心跳間隔是3秒鐘),Impala直接通過(guò)相應(yīng)的服務(wù)進(jìn)程來(lái)進(jìn)行作業(yè)調(diào)度,速度快了很多。,Impala借鑒了MPP并行數(shù)據(jù)庫(kù)的思想,可以做更多的查詢優(yōu)化,從而省掉不必要的shuffle、sort等開銷。,使用了支持Data locality
12、的I/O調(diào)度機(jī)制,盡可能地將數(shù)據(jù)和計(jì)算分配在同一臺(tái)機(jī)器上進(jìn)行,減少了網(wǎng)絡(luò)開銷。,用C++實(shí)現(xiàn),做了很多有針對(duì)性的硬件優(yōu)化。對(duì)外提供多語(yǔ)言API、多種訪問(wèn)協(xié)議。,中間結(jié)果,作業(yè)調(diào)度,作業(yè)分發(fā),數(shù)據(jù)訪問(wèn),代碼實(shí)現(xiàn),概述即席查詢批量處理流式計(jì)算,MapReduce v0.23.x (YARN),,Node Manager,Container,App Master,,Node Manager,Container,App Master,,N
13、ode Manager,Container,,Resource Manager,Client,Client,Job Submission,Container,MapReduce Status,Resource Request,Node Status,從 0.23.0 版本開始,Hadoop 的 MapReduce 框架完全重構(gòu)。新的 Hadoop MapReduce 框架命名為 MapReduceV2——YARN,概述即席查詢批量
14、處理流式計(jì)算Primeton CEPStorm,流數(shù)據(jù)處理技術(shù) 對(duì)比 傳統(tǒng)規(guī)則引擎(概念),按時(shí)間區(qū)間、按長(zhǎng)度區(qū)間、按時(shí)間與長(zhǎng)度混合區(qū)間、按特有屬性值等規(guī)則所建立起的對(duì)象集合,存放在內(nèi)存中。若動(dòng)畫中,再對(duì)已分類的硬幣進(jìn)行自動(dòng)打包,有兩種方式:1. 判斷槽中的硬幣數(shù)量,觸發(fā)打包動(dòng)作;2. 判斷槽中的硬幣重量,觸發(fā)打包動(dòng)作;,窗口模式,如動(dòng)畫中對(duì)硬幣的分揀動(dòng)作:可以根據(jù)硬幣的物理屬性設(shè)計(jì)不同的判斷規(guī)則(軌道寬度,轉(zhuǎn)角等),完成分類。
15、,決策判斷,普元CEP平臺(tái)架構(gòu),事件采集層,Agent,Agent,Agent,Agent,外部系統(tǒng),系統(tǒng)A,系統(tǒng)B,系統(tǒng)C,系統(tǒng)D,接入層,Input Cluster 1…n,分析引擎平臺(tái),結(jié)果執(zhí)行層,規(guī)則庫(kù),分析引擎OSGi Based,…,分析引擎OSGi Based,接入層,Output Cluster 1…n,分析規(guī)則開發(fā)(離線開發(fā)),規(guī)則開發(fā)IDE(Eclipse Based),Action,Action,Actio
16、n,Action,,,應(yīng)用門戶(功能松耦合),管理門戶(規(guī)則模板生命周期管理),運(yùn)維門戶(引擎監(jiān)控、全局配置、自動(dòng)化部署),業(yè)務(wù)門戶(規(guī)則實(shí)例業(yè)務(wù)參數(shù)配置),分析集群運(yùn)行環(huán)境,管理控制環(huán)境,普元CEP平臺(tái)特色,基于云計(jì)算PaaS架構(gòu)分布式集群管控框架,系統(tǒng)級(jí)物理主機(jī)/虛擬機(jī)管理,進(jìn)程級(jí)服務(wù)實(shí)例管理,集群配置分析規(guī)則熱更新/熱部署,與虛擬機(jī)鏡像結(jié)合分析服務(wù)快速部署,與規(guī)則庫(kù)結(jié)合規(guī)則插件快速部署,集群通知渠道規(guī)則
17、實(shí)例快速應(yīng)用,自動(dòng)化、圖形化運(yùn)維,事件分析平臺(tái),面向數(shù)據(jù)流,基于內(nèi)存,內(nèi)存狀態(tài)數(shù)據(jù)遷移,冷熱數(shù)據(jù)分離與恢復(fù),集群規(guī)模水平伸縮,事件動(dòng)態(tài)路由,分析規(guī)則開發(fā)、管理與應(yīng)用,規(guī)則模板開發(fā)IDE,事件元數(shù)據(jù),類SQL規(guī)則語(yǔ)言,Action元數(shù)據(jù),Web規(guī)則實(shí)例配置與熱部署,Web規(guī)則模板管理,分布式集群管控框架,Any OS,持久化集群,AMQP MQ 集群,ZooKeeper 集群,Web 控制臺(tái) (無(wú)狀態(tài), 多實(shí)例),負(fù)載均衡 (Ses
18、sion Sticky),物理/邏輯拓?fù)?規(guī)則模板模板,狀態(tài),規(guī)則實(shí)例,監(jiān)控業(yè)務(wù)進(jìn)程(過(guò)濾/聚合)(Support ZKClient),ZK Client,OS (Support NodeJS),監(jiān)控業(yè)務(wù)進(jìn)程(過(guò)濾/聚合)(unSupport ZKClient),Process Daemon(NodeJS+ZKClient),OS (unSupport NodeJS),監(jiān)控業(yè)務(wù)進(jìn)程(過(guò)濾/聚合)(unSupport ZKClie
19、nt),Process Daemon(Java+ZKClient),OS Agent(NodeJS+ZKClient+MQClient),OS Agent(NodeJS+ZKClient+MQClient),OS Agent(Java+ZKClient+MQClient),,,,管控服務(wù),ZK客戶端,DB客戶端,MQ客戶端,,規(guī)則部署與配置場(chǎng)景,運(yùn)維人員,Repository,業(yè)務(wù)Console,業(yè)務(wù)人員,DB,CEPEngi
20、ne1,CEPEngine2,CEPEngine3,ZooKeeper,3. 下載規(guī)則的表單頁(yè)面,2. 保存規(guī)則到倉(cāng)庫(kù),運(yùn)維Console,4. 規(guī)則參數(shù)配置,5. 保存規(guī)則參數(shù)配置,6. 保存規(guī)則參數(shù)配置到ZooKeeper,engine1,Rule1,Rule2,Rule3,engine2,Rule4,engines,7. 通知Engine,1. 上傳規(guī)則部署包,8. 下載規(guī)則,2’. 保存規(guī)則信息到DB,接出層,分析引擎,接
21、入層,分析引擎A,規(guī)則實(shí)例A1,規(guī)則實(shí)例A2,規(guī)則實(shí)例An,規(guī)則實(shí)例A3,分析引擎B,事件路由1,事件路由p,事件路由…,事件去重1,事件去重q,事件去重…,NoSQL,負(fù)載均衡(可選),事件輸入,事件輸出,集群管理,,,MQ,MQ,事件,分析規(guī)則,1:n,分析引擎實(shí)例,n:1,規(guī)則,,規(guī)則實(shí)例B1,規(guī)則實(shí)例B2,規(guī)則實(shí)例Bn,規(guī)則實(shí)例B3,普元CEP關(guān)鍵技術(shù)——事件路由與去重,多副本冗余增強(qiáng)可靠性,分析引擎,實(shí)例3,
22、實(shí)例4,實(shí)例2,普元CEP關(guān)鍵技術(shù)——實(shí)例狀態(tài)復(fù)制,接出層,接入層,實(shí)例1,實(shí)例A1,實(shí)例A2異常,實(shí)例A3,事件路由,事件去重,事件輸入,事件輸出,實(shí)例A4新增,場(chǎng)景說(shuō)明實(shí)例A2異常實(shí)例A4新增,Context,Context,Context,Context包括最終接收事件號(hào)狀態(tài)對(duì)象,關(guān)鍵步驟1從A1或A3中選擇一個(gè)實(shí)例,如A3,關(guān)鍵步驟2將A3工作暫停,獲得其Context此時(shí)A1正常工作,A2已經(jīng)退出,A
23、3暫停,關(guān)鍵步驟3創(chuàng)建新的實(shí)例A4(未啟動(dòng)狀態(tài))將Context復(fù)制到A4中恢復(fù)A3的工作狀態(tài),啟動(dòng)A4,關(guān)鍵點(diǎn)業(yè)務(wù)不中斷事件去重完成對(duì)重復(fù)事件的過(guò)濾可靠性取決于集群內(nèi)實(shí)例個(gè)數(shù),C,C,C,D,狀態(tài)數(shù)據(jù)遷移與備份,JVM,普元CEP關(guān)鍵技術(shù)——規(guī)則實(shí)例水平遷移,內(nèi)存,規(guī)則數(shù),事件量,JVM1,分析引擎,事件大小,容量預(yù)估模型,,,,,規(guī)則實(shí)例m,事件*,狀態(tài)*,分布式集群管理框架,規(guī)則實(shí)例n,事件*,狀態(tài)*,規(guī)則實(shí)例x
24、,事件*,狀態(tài)*,NoSQL(MongoDB),,JVM1,規(guī)則實(shí)例m,事件*,狀態(tài)*,規(guī)則實(shí)例x,事件*,狀態(tài)*,JVM2,規(guī)則實(shí)例x,事件*,狀態(tài)*,,運(yùn)行期實(shí)時(shí)監(jiān)控,系統(tǒng)容量擴(kuò)展,普元CEP關(guān)鍵技術(shù)——基于OSGi的規(guī)則部署包,規(guī)則庫(kù)目錄結(jié)構(gòu)和導(dǎo)出規(guī)則部署包的目錄結(jié)構(gòu)一致,方便部署和下載CEP Engine規(guī)則庫(kù)的目錄結(jié)構(gòu)與console的規(guī)則庫(kù)目錄結(jié)構(gòu)區(qū)別在于web目錄。一個(gè)rule目錄作為一個(gè)OSGi的bundle,ru
25、les,Java package,classes,rule1.rule,eps,eps1.eps,lib,3rd1.jar,Action1.class,ExtFunc.class,rule1,eventSource,event1.event,event2.event,web,form1.jsp,rule2,Listener1.class,META-INF,MANIFEST.MF,ext,extconfig1,OSGi Bundle,規(guī)則
26、庫(kù)/部署包,規(guī)則模板熱部署,普元CEP 1.5平臺(tái)(主機(jī)管理),普元CEP 1.5平臺(tái)(集群管理),普元CEP 1.5平臺(tái)(實(shí)例管理),普元CEP 1.5平臺(tái)(規(guī)則模板管理),普元CEP 1.5平臺(tái)(規(guī)則實(shí)例管理),普元CEP 1.5平臺(tái)(狀態(tài)監(jiān)控),普元CEP 1.5平臺(tái)(規(guī)則模板元數(shù)據(jù)),普元CEP 1.5平臺(tái)(規(guī)則實(shí)例業(yè)務(wù)參數(shù)配置),普元CEP 1.5平臺(tái)(規(guī)則包),,概述即席查詢批量處理流式計(jì)算Primeton CEP
27、Storm,Storm基本概念,Stream,Spout,Bolt,Streaming Grouping,Task,Work,消息流,一個(gè)無(wú)盡的Tuple序列。,Topology,規(guī)則拓?fù)洌啥鄠€(gè)Spout和Bolt組成。,消息發(fā)送器,區(qū)分可靠與不可靠。,消息處理器,業(yè)務(wù)邏輯載體,多入多出。,消息分組方式,數(shù)據(jù)進(jìn)入Blot的策略。,工作任務(wù),可以是Spout或Blot。,工作進(jìn)程,當(dāng)JVM且執(zhí)行Topology的一部分。,Storm集群
28、組件,主控節(jié)點(diǎn),運(yùn)行一個(gè)被稱為Nimbus的后臺(tái)程序,它負(fù)責(zé)在Storm集群內(nèi)分發(fā)代碼,分配任務(wù)給工作機(jī)器,并且負(fù)責(zé)監(jiān)控集群運(yùn)行狀態(tài)。,工作節(jié)點(diǎn),運(yùn)行一個(gè)被稱為Supervisor的后臺(tái)程序。Supervisor負(fù)責(zé)監(jiān)聽從Nimbus分配給它執(zhí)行的任務(wù),并啟動(dòng)或停止執(zhí)行任務(wù)的工作進(jìn)程(Worker)。每一個(gè)工作進(jìn)程(Worker)執(zhí)行一個(gè)Topology的子集。,Nimbus和Supervisor節(jié)點(diǎn)之間所有的協(xié)調(diào)工作是通過(guò)Zookee
29、per集群來(lái)實(shí)現(xiàn)的。此外,Nimbus和Supervisor進(jìn)程都是無(wú)狀態(tài)的。,節(jié)點(diǎn)間信令ZooKeeper,用ZeroMQ作為底層消息隊(duì)列, 使消息能快速被處理。,數(shù)據(jù)傳遞ZeroMQ,Storm可靠性,原則,保證每個(gè)Tuple被Topology完整執(zhí)行。,每個(gè)Tuple經(jīng)過(guò)Spout/Blot后,形成一個(gè)消息樹。,消息樹,Emit通知新Tuple生成, Ack通知Tuple處理完畢。,生命周期,超時(shí),每個(gè)Tuple都包含一個(gè)超時(shí)時(shí)間
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于大數(shù)據(jù)的高考志愿數(shù)據(jù)分析關(guān)鍵技術(shù)研究.pdf
- 大數(shù)據(jù)關(guān)鍵技術(shù)
- 動(dòng)車組復(fù)雜裝備大數(shù)據(jù)分析關(guān)鍵技術(shù)研究與實(shí)現(xiàn).pdf
- 大數(shù)據(jù)架構(gòu)與關(guān)鍵技術(shù)
- 大數(shù)據(jù)架構(gòu)與關(guān)鍵技術(shù)
- 基因表達(dá)數(shù)據(jù)分析和處理關(guān)鍵技術(shù).pdf
- 大數(shù)據(jù)處理的關(guān)鍵技術(shù)
- 大數(shù)據(jù)分析方法
- 多模態(tài)媒體數(shù)據(jù)分析關(guān)鍵技術(shù)研究.pdf
- 眼科專科影像數(shù)據(jù)分析關(guān)鍵技術(shù)研究.pdf
- 基因微陣列數(shù)據(jù)分析關(guān)鍵技術(shù)研究.pdf
- 實(shí)時(shí)流數(shù)據(jù)分析的關(guān)鍵技術(shù)及應(yīng)用.pdf
- 大數(shù)據(jù)關(guān)鍵技術(shù)_王秀磊.pdf
- 實(shí)時(shí)大數(shù)據(jù)分析平臺(tái)-硬件技術(shù)方案
- 法學(xué)大數(shù)據(jù)分析平臺(tái)
- 大數(shù)據(jù)分析基礎(chǔ)試卷
- 基于GPU的大數(shù)據(jù)OLAP分析關(guān)鍵技術(shù)的研究.pdf
- 基于大數(shù)據(jù)的信息系統(tǒng)關(guān)鍵技術(shù)
- 女裝大數(shù)據(jù)分析思路
- 基于大數(shù)據(jù)技術(shù)的用電行為分析關(guān)鍵技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論