大數(shù)據(jù)在金融行業(yè)中的應(yīng)用_第1頁
已閱讀1頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、<p>  數(shù)據(jù)掘金-大數(shù)據(jù)在金融行業(yè)中的應(yīng)用</p><p>  在當(dāng)前大數(shù)據(jù)技術(shù)潮流中,各行各業(yè)都在不斷的探索如何應(yīng)用大數(shù)據(jù)技術(shù)以解決企業(yè)面臨的問題。目前國內(nèi)已有不少金融機(jī)構(gòu)開始嘗試通過大數(shù)據(jù)來驅(qū)動(dòng)相關(guān)金融業(yè)務(wù)運(yùn)營。如下是百分點(diǎn)就金融行業(yè)如何應(yīng)用大數(shù)據(jù)技術(shù)提出我們的見解。</p><p>  按照我們的經(jīng)驗(yàn),企業(yè)面向消費(fèi)者的應(yīng)用大致可以分為運(yùn)營、服務(wù)和營銷三大類,在金融行業(yè)中

2、這三類應(yīng)用的典型例子有:</p><p>  運(yùn)營類:歷史記錄管理、多渠道數(shù)據(jù)整合分析、產(chǎn)品定位分析、客戶洞察分析、客戶全生命周期分析等。</p><p>  服務(wù)類:個(gè)性化坐席分配、個(gè)性化產(chǎn)品推薦、個(gè)性化權(quán)益匹配、個(gè)性化產(chǎn)品定價(jià)、客戶體驗(yàn)優(yōu)化、客戶挽留等。</p><p>  營銷類:互聯(lián)網(wǎng)獲客、產(chǎn)品推廣、交叉銷售、社會(huì)化營銷、渠道效果分析等。</p>

3、<p>  大數(shù)據(jù)技術(shù)在這些應(yīng)用中都可以發(fā)揮價(jià)值,其核心是通過一系列的技術(shù)手段,采集、整合和挖掘用戶全方位的數(shù)據(jù),為每個(gè)用戶建立數(shù)據(jù)檔案,也就是常說的“用戶畫像”。</p><p>  大數(shù)據(jù)可應(yīng)用于金融行業(yè)實(shí)時(shí)數(shù)據(jù)分析,場景包括:</p><p>  在風(fēng)險(xiǎn)管理領(lǐng)域,可以應(yīng)用于實(shí)時(shí)反欺詐、反洗錢,實(shí)時(shí)風(fēng)險(xiǎn)識(shí)別、在線授信等場景;</p><p>  在

4、渠道方面,可以應(yīng)用于全渠道實(shí)時(shí)監(jiān)測、資源動(dòng)態(tài)優(yōu)化配置等場景;</p><p>  在用戶管理和服務(wù)領(lǐng)域,可以應(yīng)用于在線和柜面服務(wù)優(yōu)化、客戶流失預(yù)警及挽留、個(gè)性化推薦、個(gè)性化定價(jià)等場景;</p><p>  在營銷領(lǐng)域,可以應(yīng)用于(基于互聯(lián)網(wǎng)用戶行為的)事件式營銷、差異化廣告投放與推廣等場景。</p><p>  大數(shù)據(jù)在金融業(yè)統(tǒng)計(jì)分析類應(yīng)用中的優(yōu)勢(shì)</p>

5、;<p>  大數(shù)據(jù)在數(shù)據(jù)量、多種數(shù)據(jù)源、多種數(shù)據(jù)結(jié)構(gòu)、復(fù)雜計(jì)算任務(wù)方面都優(yōu)于傳統(tǒng)的數(shù)據(jù)倉庫技術(shù),這里僅舉兩個(gè)例子:</p><p>  大量數(shù)據(jù)的運(yùn)算,例如:兩張Oracle里面表數(shù)據(jù)分別是1000多萬和800多萬做8層join,放在大數(shù)據(jù)平臺(tái)運(yùn)算比在Oracle里面運(yùn)算至少快2倍多;</p><p>  對(duì)于跨數(shù)據(jù)庫類型的表之間的join,例如一張Oracle的表和一張s

6、qlserver的表,在傳統(tǒng)的數(shù)據(jù)倉庫中是沒有辦法join的。可以將數(shù)據(jù)通過sqoop等工具放到HDFS上面。利用hive,pig, impala,spark等進(jìn)行更快的處理。</p><p>  大數(shù)據(jù)協(xié)助銀行實(shí)現(xiàn)其對(duì)客戶的多維度分析</p><p>  有人指出,目前銀行自身的數(shù)據(jù)難以完成客戶全維度分析,那么應(yīng)用大數(shù)據(jù)又能如何?首先,有幾個(gè)問題我們需要仔細(xì)思考:什么叫客戶“全維度”?有

7、沒有可能做到“全維度”?按照百分點(diǎn)的理解,不存在對(duì)一個(gè)人的“全維度”的刻畫,因?yàn)槲覀儸F(xiàn)實(shí)中都做不到。您可以想象,一個(gè)人的DNA可以代表他的“全維度”嗎?或者他的所有言論可以代表他的“全維度”嗎?都不可以。我們期望的“全維度”實(shí)際上是想說最大可能的利用和挖掘手上的數(shù)據(jù)資源!基于上面的理解,我們認(rèn)為銀行在大數(shù)據(jù)平臺(tái)建設(shè)過程中最需要考慮的是如何最大程度的整合所有數(shù)據(jù)源,特別是行內(nèi)自有數(shù)據(jù)源,并且針對(duì)業(yè)務(wù)需求做出有價(jià)值的分析應(yīng)用。</p&

8、gt;<p>  其次,假設(shè)銀行要引入第三方數(shù)據(jù),這些數(shù)據(jù)怎么利用?這些數(shù)據(jù)如何和行內(nèi)數(shù)據(jù)整合發(fā)揮價(jià)值?這些數(shù)據(jù)又如何轉(zhuǎn)化為客戶“全維度”分析?顯然的,第三方數(shù)據(jù)也不是直接就能“全維度”的,還是要經(jīng)過一系列的數(shù)據(jù)分析和挖掘。對(duì)銀行客戶了解、并且契合銀行業(yè)務(wù)的數(shù)據(jù)一定來自于銀行業(yè)內(nèi)!任何外部的數(shù)據(jù)都需要經(jīng)過大量的轉(zhuǎn)換和業(yè)務(wù)解讀才能直接在銀行中使用。如果需要第三方數(shù)據(jù)支撐,銀行必須找到對(duì)金融業(yè)務(wù)有相當(dāng)理解,并且已經(jīng)按照銀行業(yè)務(wù)

9、訴求分析好的數(shù)據(jù)才是有價(jià)值的。</p><p>  最后,按照我們的理解和實(shí)踐經(jīng)驗(yàn),銀行只需要把第三方數(shù)據(jù)看做一個(gè)數(shù)據(jù)源即可,“全維度”的關(guān)鍵還是如何整合所有數(shù)據(jù)源并進(jìn)行深度挖掘。</p><p>  在百分點(diǎn)的實(shí)際案例中,我們有一套自己的方法論,包括數(shù)據(jù)的集成、清洗、脫敏、多渠道整合、用戶畫像標(biāo)簽建模、用戶畫像整合、用戶畫像服務(wù)等幾個(gè)步驟。第三方數(shù)據(jù)是在集成階段就解決的問題,后面各階段關(guān)

10、注點(diǎn)都在如何整合、挖掘和應(yīng)用這些數(shù)據(jù)。</p><p>  相比傳統(tǒng)技術(shù),大數(shù)據(jù)技術(shù)的優(yōu)勢(shì)如下:</p><p>  大數(shù)據(jù)技術(shù)更關(guān)注過程數(shù)據(jù)、行為數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),可以真正做到“全方位”;</p><p>  大數(shù)據(jù)技術(shù)在實(shí)時(shí)性、數(shù)據(jù)量和并發(fā)量上有明顯優(yōu)勢(shì),因?yàn)檫@些技術(shù)一開始就是為互聯(lián)網(wǎng)、海量數(shù)據(jù)和高并發(fā)設(shè)計(jì)的;</p><p>  大數(shù)

11、據(jù)技術(shù)在組件化、水平擴(kuò)展方面有明顯優(yōu)勢(shì),對(duì)業(yè)務(wù)升級(jí)和擴(kuò)展支持更加平滑。</p><p>  如何選擇大數(shù)據(jù)技術(shù)產(chǎn)品</p><p>  選擇大數(shù)據(jù)技術(shù)產(chǎn)品最優(yōu)先考慮的原則是什么?大家選擇某一款大數(shù)據(jù)技術(shù)產(chǎn)品時(shí),不能只關(guān)注某款產(chǎn)品有什么“高端”的功能,而應(yīng)該關(guān)心是這款產(chǎn)品是否能給我們帶來價(jià)值,能解決我們的業(yè)務(wù)痛點(diǎn)。所以大數(shù)據(jù)產(chǎn)品的關(guān)鍵不在于建一個(gè)大數(shù)據(jù)的平臺(tái),然后把數(shù)據(jù)進(jìn)行采集和存儲(chǔ),而在于

12、這些大數(shù)據(jù)產(chǎn)品能在哪些方面支撐我們的應(yīng)用場景、能從數(shù)據(jù)中分析出哪些有價(jià)值的觀點(diǎn)、能基于數(shù)據(jù)產(chǎn)生哪些數(shù)據(jù)應(yīng)用、如何為企業(yè)提供增值變現(xiàn)的能力。這一點(diǎn),我們需要向互聯(lián)網(wǎng)公司學(xué)習(xí)。大數(shù)據(jù)能夠蓬勃發(fā)展正是因?yàn)榛ヂ?lián)網(wǎng)行業(yè)真正讓大數(shù)據(jù)產(chǎn)生豐富的價(jià)值,如Google的精準(zhǔn)廣告,亞馬遜的“千人千面”推薦等。</p><p>  金融是極度依賴信息化技術(shù)的行業(yè),在這個(gè)行業(yè)中,業(yè)務(wù)場景可以分為下面幾大類:</p><

13、;p>  支撐類。例如海量數(shù)據(jù)的存儲(chǔ)和查詢等。</p><p>  操作類。例如受眾人群篩選、營銷活動(dòng)策劃等。</p><p>  戰(zhàn)術(shù)類。人群分析洞察、產(chǎn)品輿情分析等。</p><p>  戰(zhàn)略類。運(yùn)營分析報(bào)告、新業(yè)務(wù)拓展等。</p><p>  不存在一款產(chǎn)品可以支撐以上所有場景,我們?cè)诋a(chǎn)品選型時(shí)應(yīng)該盡量考慮那些可以支撐更多場景的產(chǎn)

14、品,至少應(yīng)該了解:</p><p>  該產(chǎn)品適合的直接場景是什么?</p><p>  該產(chǎn)品上已經(jīng)提供的應(yīng)用有哪些,支撐了哪些場景?</p><p>  該產(chǎn)品上可以衍生出哪些應(yīng)用,能夠支撐哪些場景?</p><p>  正是基于上述考慮,百分點(diǎn)才推出了大數(shù)據(jù)技術(shù)、大數(shù)據(jù)管理和大數(shù)據(jù)應(yīng)用三層產(chǎn)品,每一層解決特定的業(yè)務(wù)問題,但這些產(chǎn)品可以像

15、搭積木那樣輕松整合在一起。</p><p><b>  大數(shù)據(jù)平臺(tái)建設(shè)</b></p><p><b>  大數(shù)據(jù)平臺(tái)硬件選型</b></p><p>  大數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)量大但往往價(jià)值稀疏,從大數(shù)據(jù)里提取價(jià)值就像是從大海里撈針,要想完成大海撈針的工作就必須提供性價(jià)比可接受的軟硬件解決方案,開源Hadoop解決方案就是典

16、型的代表,通過基于廉價(jià)x86架構(gòu)服務(wù)器之上提供海量數(shù)據(jù)存儲(chǔ)和分析解決方案贏得互聯(lián)網(wǎng)界的青睞,所以,這種通過軟件層面來保證數(shù)據(jù)安全和穩(wěn)定,硬件基于標(biāo)準(zhǔn)x86標(biāo)準(zhǔn)服務(wù)器的解決方案是未來的主要方式。</p><p>  另外對(duì)于x86服務(wù)器的硬件選型也是需要考慮的,從實(shí)踐經(jīng)驗(yàn)來看,我們往往會(huì)綜合數(shù)據(jù)量、數(shù)據(jù)應(yīng)用和成本提供一個(gè)平衡性的硬件配置,然后基于平衡型的硬件配置依據(jù)任務(wù)作業(yè)情況,調(diào)整硬件配置,如IO密集型可能會(huì)使用

17、SSD&內(nèi)存,CPU密集型任務(wù)則會(huì)選擇高端CPU等。</p><p>  大數(shù)據(jù)平臺(tái)建設(shè)最佳實(shí)踐</p><p>  大數(shù)據(jù)平臺(tái)建設(shè)中,Hadoop體系所包含的生態(tài)系統(tǒng),如:Hbase,Hive,snoop,pig,spark等子系統(tǒng),那么如何根據(jù)各自的特性,通過組合方式來適應(yīng)實(shí)際需求并應(yīng)用到具體場景中呢?我們的最佳實(shí)踐是利用互聯(lián)網(wǎng)+大數(shù)據(jù)的技術(shù)架構(gòu),構(gòu)建Lamda架構(gòu),如圖所示:

18、</p><p><b>  數(shù)據(jù)采集</b></p><p>  傳統(tǒng)業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)集市、數(shù)據(jù)倉庫的數(shù)據(jù),均可以通過Sqoop等數(shù)據(jù)橋接的方式接入大數(shù)據(jù)平臺(tái),同時(shí)可以將數(shù)據(jù)庫日志、系統(tǒng)日志等非結(jié)構(gòu)化文本數(shù)據(jù)通過Flume等組件接入大數(shù)據(jù)平臺(tái)。</p><p>  銀行線上渠道(網(wǎng)站、APP應(yīng)用、微信公眾號(hào)等)中的用戶行為可以通過數(shù)據(jù)探頭

19、技術(shù),Web端及H5通過JS、移動(dòng)端通過SDK部碼,采集用戶行為數(shù)據(jù);銀行線下渠道(柜面、ATM等)的用戶行為數(shù)據(jù),需從線下接入的系統(tǒng)數(shù)據(jù)中解構(gòu)分析。</p><p>  互聯(lián)網(wǎng)公開數(shù)據(jù),如論壇、微博、媒體資訊等,通過數(shù)據(jù)爬取技術(shù)進(jìn)行數(shù)據(jù)采集。</p><p>  也可以利用各種API接口接入其他合作方、第三方等的在線或離線數(shù)據(jù)。</p><p><b>

20、  數(shù)據(jù)分發(fā)</b></p><p>  通過FTP或Kafka消息隊(duì)列將數(shù)據(jù)實(shí)時(shí)分發(fā),分發(fā)后分開實(shí)時(shí)數(shù)據(jù)處理和離線數(shù)據(jù)存儲(chǔ)和處理兩條線,形成“人”字型的Lamda架構(gòu)。</p><p><b>  離線數(shù)據(jù)存儲(chǔ)及處理</b></p><p>  基于Hadoop平臺(tái)和MpReduce技術(shù)的離線數(shù)據(jù)處理,常用的是HBase列式數(shù)據(jù)庫

21、。</p><p><b>  實(shí)時(shí)數(shù)據(jù)處理</b></p><p>  利用Storm或Spark技術(shù)的實(shí)時(shí)數(shù)據(jù)處理,例如Storm是事實(shí)流式處理,Spark(Spark Streaming)是基于內(nèi)存的實(shí)時(shí)批處理。</p><p><b>  數(shù)據(jù)存儲(chǔ)</b></p><p>  不同的數(shù)據(jù)類型

22、、不同的業(yè)務(wù)場景,需要的不同的數(shù)據(jù)存儲(chǔ)服務(wù),在我們的產(chǎn)品中應(yīng)用了Redis、MongoDB、MySQL、ElasticSearch等多種存儲(chǔ)服務(wù)。</p><p>  百分點(diǎn)基于此架構(gòu)為銀行提供服務(wù)的典型應(yīng)用場景包括:</p><p>  用戶行為采集分析:利用數(shù)據(jù)探頭(JS、SDK,Nginx、ICE)、數(shù)據(jù)分發(fā)(Kafka)、離線數(shù)據(jù)存儲(chǔ)及處理(HBase)、運(yùn)營分析結(jié)果展現(xiàn)(MySQ

23、L)。</p><p>  跨部門數(shù)據(jù)整合:利用數(shù)據(jù)橋接(Sqoop)、日志接入(Flume)、數(shù)據(jù)分發(fā)(FTP)、離線數(shù)據(jù)存儲(chǔ)存儲(chǔ)及處理(HBase、ES)。</p><p>  離線用戶畫像和用戶洞察(支持營銷):利用離線數(shù)據(jù)存儲(chǔ)存儲(chǔ)及處理(HBase、ES)。</p><p>  實(shí)時(shí)用戶畫像及推薦:利用實(shí)時(shí)數(shù)據(jù)處理(Storm、Spark)、數(shù)據(jù)存儲(chǔ)(Red

24、is、MongoDB)。</p><p>  實(shí)時(shí)反欺詐:利用數(shù)據(jù)接口(API)、數(shù)據(jù)分發(fā)(MQ)、實(shí)時(shí)數(shù)據(jù)處理(Storm)。</p><p>  大數(shù)據(jù)平臺(tái)和現(xiàn)有數(shù)據(jù)倉庫的有效整合</p><p>  目前各行都有自己的數(shù)據(jù)倉庫或數(shù)據(jù)集市平臺(tái),而大數(shù)據(jù)平臺(tái)的引入又往往獨(dú)立于數(shù)據(jù)倉庫,對(duì)于某些場景,將結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整體結(jié)合往往能夠起到更好的效果,如何

25、能夠?qū)⒋髷?shù)據(jù)平臺(tái)和現(xiàn)有數(shù)據(jù)倉庫進(jìn)行有效整合?</p><p>  非結(jié)構(gòu)化數(shù)據(jù)處理與大數(shù)據(jù)應(yīng)用的關(guān)系</p><p>  首先分享一下我們對(duì)“結(jié)構(gòu)化”和“非結(jié)構(gòu)化”的理解:</p><p>  狹義的理解:結(jié)構(gòu)化就是指關(guān)系型數(shù)據(jù),其余都是非結(jié)構(gòu)化數(shù)據(jù)。</p><p>  廣義的理解:結(jié)構(gòu)化是相對(duì)于某一個(gè)程序來講的,例如視頻對(duì)于播放器來說顯然

26、是結(jié)構(gòu)化的,但是對(duì)于文本編輯器來說就是非結(jié)構(gòu)化的。</p><p>  事實(shí)上,即使是人腦,處理的也都是“廣義的”結(jié)構(gòu)化數(shù)據(jù)。你可以想象,自己在注視一張照片時(shí),腦海中形成的一定不是一個(gè)一個(gè)像素點(diǎn),而是抽象過的一些屬性!</p><p>  按照我們上面的理解,無論是語音、影像還是其它“狹義”的非結(jié)構(gòu)化數(shù)據(jù),只要我們有工具可以將這些數(shù)據(jù)轉(zhuǎn)化成我們關(guān)心數(shù)據(jù)結(jié)構(gòu),那就可以作為大數(shù)據(jù)應(yīng)用的一個(gè)數(shù)據(jù)

27、源,后續(xù)由針對(duì)這類數(shù)據(jù)的的特定工具處理即可。這里舉一個(gè)例子:通常我們認(rèn)為HTML網(wǎng)頁,例如電商的單品頁面,是非結(jié)構(gòu)化的,因?yàn)槲液茈y從中提取出結(jié)構(gòu)化字段,例如商品名稱、價(jià)格等。但通過互聯(lián)網(wǎng)抓取系統(tǒng),我們可以將這些頁面轉(zhuǎn)化為結(jié)構(gòu)化字段,那么后續(xù)按照結(jié)構(gòu)化數(shù)據(jù)處理即可。語音、影響也是一樣,關(guān)鍵是我們期望從中提取什么信息,用什么工具提取,一旦提取成功,即可整合到大數(shù)據(jù)應(yīng)用中。</p><p>  在百分點(diǎn)的實(shí)踐中,我們已

28、經(jīng)完全整合了網(wǎng)頁、文本、JSON、XML等非結(jié)構(gòu)化數(shù)據(jù),部分整合了圖像和語音數(shù)據(jù),這些內(nèi)容都已經(jīng)應(yīng)用到了業(yè)務(wù)中。</p><p>  大數(shù)據(jù)平臺(tái)和現(xiàn)有數(shù)據(jù)倉庫的整合</p><p>  現(xiàn)有的數(shù)據(jù)倉庫完全可以和大數(shù)據(jù)平臺(tái)進(jìn)行整合,現(xiàn)有數(shù)據(jù)倉庫可以作為大數(shù)據(jù)平臺(tái)的一個(gè)數(shù)據(jù)源和數(shù)據(jù)應(yīng)用。</p><p>  對(duì)于金融銀行業(yè),往往已經(jīng)實(shí)施有數(shù)據(jù)倉庫,這個(gè)時(shí)候如果盲目上大數(shù)

29、據(jù)平臺(tái)進(jìn)行平臺(tái)替換往往容易造成數(shù)據(jù)混亂,所以我們提供的建議是混搭先行,逐步替換,先替換那些傳統(tǒng)手段不能解決的問題,再替換那些數(shù)據(jù)倉庫已經(jīng)存在的應(yīng)用?,F(xiàn)階段數(shù)據(jù)倉庫上下游生態(tài)圈豐富程度遠(yuǎn)遠(yuǎn)大于大數(shù)據(jù)生態(tài)圈,我們應(yīng)該充分利用現(xiàn)有數(shù)據(jù)倉庫上下游豐富的解決方案充分發(fā)揮傳統(tǒng)數(shù)倉的價(jià)值,然后通過Hadoop等大數(shù)據(jù)產(chǎn)品來補(bǔ)充傳統(tǒng)數(shù)倉對(duì)于非結(jié)構(gòu)化數(shù)據(jù)處理不足的缺陷。隨著大數(shù)據(jù)技術(shù)的發(fā)展,大數(shù)據(jù)產(chǎn)品(Hadoop等)各項(xiàng)功能和性能不斷完善,再逐步把數(shù)倉

30、之上已有業(yè)務(wù)應(yīng)用遷移到大數(shù)據(jù)平臺(tái)。</p><p><b>  常見技術(shù)問題解答</b></p><p>  在Hadoop中導(dǎo)入Oracle的數(shù)據(jù)后,數(shù)據(jù)怎么備份?</p><p>  在數(shù)據(jù)導(dǎo)入到Hadoop中之后,數(shù)據(jù)的備份數(shù)就已經(jīng)根據(jù)Hadoop的HDFS配置做了多備份(默認(rèn)是3備份)。</p><p>  Or

31、acle關(guān)系數(shù)據(jù)庫的數(shù)據(jù)怎么部署Hadoop環(huán)境中使用?</p><p>  Oracle數(shù)據(jù)庫中的數(shù)據(jù)可以直接導(dǎo)入到Hadoop中,而后利用一些工具進(jìn)行處理:</p><p>  Hadoop生態(tài)中有一系列的工具和組件可以在RDBMS和Hadoop間導(dǎo)入導(dǎo)出數(shù)據(jù),例如Sqoop,這些工具或多或少會(huì)有一些坑,需要使用者注意或者找有經(jīng)驗(yàn)的專家指導(dǎo)。</p><p> 

32、 數(shù)據(jù)處理方面,Hive、SparkSQL和Impala都是很好的SQL on Hadoop工具,它們可以滿足大部分的數(shù)據(jù)處理需求,但它們對(duì)SQL的支持不盡相同,目前也沒有任何組件能完美支持Oracle的PL/SQL。這些SQL組件無法滿足數(shù)據(jù)處理需求,一般的做法是利用其它工具,例如Pig、原生MapReduce等。</p><p>  HDFS數(shù)據(jù)怎么入Hbase</p><p>  H

33、DFS數(shù)據(jù)導(dǎo)入到HBase有三種方式:</p><p>  可以通過普通的MR程序,在Map或者Reduce里面通過HTable的對(duì)象來寫入到HBase。</p><p>  直接通過MR程序,用HBase的TableMapper和TableReducer方法,然后用TableMapReduceUtil類來執(zhí)行MR,和1類似。</p><p>  如果數(shù)據(jù)量大,建議

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論