03.《大數(shù)據(jù)》配套之四第3章-數(shù)據(jù)挖掘算法下

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-04-10 格式：pptx 頁數(shù)：42 大小：8.25MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

03.《大數(shù)據(jù)》配套之四第3章-數(shù)據(jù)挖掘算法下_第1頁

已閱讀1頁，還剩41頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、,全國高校標(biāo)準(zhǔn)教材《云計(jì)算》姊妹篇，剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用,大數(shù)據(jù),,,,劉鵬　　主編　　　　張燕　張重生　張志立　副主編,,,BIG DATA,,劉鵬,,,全國高校標(biāo)準(zhǔn)教材《云計(jì)算》姊妹篇，剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用,,,of,65,3,,3.4 關(guān)聯(lián)規(guī)則,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘中最活躍的研究方法之一，是指搜索業(yè)務(wù)系統(tǒng)中的所有

2、細(xì)節(jié)或事務(wù)，找出所有能把一組事件或數(shù)據(jù)項(xiàng)與另一組事件或數(shù)據(jù)項(xiàng)聯(lián)系起來的規(guī)則，以獲得存在于數(shù)據(jù)庫中的不為人知的或不能確定的信息，它側(cè)重于確定數(shù)據(jù)中不同領(lǐng)域之間的聯(lián)系，也是在無指導(dǎo)學(xué)習(xí)系統(tǒng)中挖掘本地模式的最普通形式。,應(yīng)用市場：市場貨籃分析、交叉銷售（Crossing Sale）、部分分類（Partial Classification）、金融服務(wù)（Financial Service），以及通信、互聯(lián)網(wǎng)、電子商務(wù) ··&#

3、183;···,第三章數(shù)據(jù)挖掘算法,of,65,4,,,,3.4 關(guān)聯(lián)規(guī)則,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,第三章數(shù)據(jù)挖掘算法,一般來說，關(guān)聯(lián)規(guī)則挖掘是指從一個(gè)大型的數(shù)據(jù)集（Dataset）發(fā)現(xiàn)有趣的關(guān)聯(lián)（Association）或相關(guān)關(guān)系（Correlation），即從數(shù)據(jù)集中識(shí)別出頻繁出現(xiàn)的屬性值集（Sets of Attribu

4、te Values），也稱為頻繁項(xiàng)集（Frequent Itemsets，頻繁集），然后利用這些頻繁項(xiàng)集創(chuàng)建描述關(guān)聯(lián)關(guān)系的規(guī)則的過程。,3.4.1 關(guān)聯(lián)規(guī)則的概念,關(guān)聯(lián)規(guī)則挖掘問題：,發(fā)現(xiàn)所有的頻繁項(xiàng)集是形成關(guān)聯(lián)規(guī)則的基礎(chǔ)。通過用戶給定的最小支持度，尋找所有支持度大于或等于Minsupport的頻繁項(xiàng)集。,通過用戶給定的最小可信度，在每個(gè)最大頻繁項(xiàng)集中，尋找可信度不小于Minconfidence的關(guān)聯(lián)規(guī)則。,發(fā)現(xiàn)頻繁項(xiàng)集,生成關(guān)聯(lián)規(guī)則,

5、如何迅速高效地發(fā)現(xiàn)所有頻繁項(xiàng)集，是關(guān)聯(lián)規(guī)則挖掘的核心問題，也是衡量關(guān)聯(lián)規(guī)則挖掘算法效率的重要標(biāo)準(zhǔn)。,of,65,5,,3.4 關(guān)聯(lián)規(guī)則,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,第三章數(shù)據(jù)挖掘算法,3.4.2 頻繁項(xiàng)集的產(chǎn)生及其經(jīng)典算法,格結(jié)構(gòu)（Lattice Structure）常常被用來枚舉所有可能的項(xiàng)集。,圖3-10 項(xiàng)集的格,of,65,6,,3.4 關(guān)聯(lián)規(guī)則,,,

6、,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,第三章數(shù)據(jù)挖掘算法,3.4.2 頻繁項(xiàng)集的產(chǎn)生及其經(jīng)典算法,格結(jié)構(gòu)（Lattice Structure）常常被用來枚舉所有可能的項(xiàng)集。,of,65,7,,,,3.4 關(guān)聯(lián)規(guī)則,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,第三章數(shù)據(jù)挖掘算法,3.4.2 頻繁項(xiàng)集的產(chǎn)生及其經(jīng)典算法,

7、1．Apriori算法,Apriori算法基于頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí)，使用由下至上逐層搜索的迭代方法，即從頻繁1項(xiàng)集開始，采用頻繁k項(xiàng)集搜索頻繁k+1項(xiàng)集，直到不能找到包含更多項(xiàng)的頻繁項(xiàng)集為止。,Apriori算法由以下步驟組成，其中的核心步驟是連接步和剪枝步：,生成頻繁1項(xiàng)集L1,連接步,剪枝步,生成頻繁k項(xiàng)集Lk,重復(fù)步驟（2）～（4），直到不能產(chǎn)生新的頻繁項(xiàng)集的集合為止，算法中止。,,,,,性能瓶頸,Apriori算法是一個(gè)多趟搜

8、索算法,可能產(chǎn)生龐大的候選項(xiàng)集,,of,65,8,,3.4 關(guān)聯(lián)規(guī)則,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,第三章數(shù)據(jù)挖掘算法,3.4.2 頻繁項(xiàng)集的產(chǎn)生及其經(jīng)典算法,2．FP-Growth算法,頻繁模式樹增長算法（Frequent Pattern Tree Growth）采用分而治之的基本思想，將數(shù)據(jù)庫中的頻繁項(xiàng)集壓縮到一棵頻繁模式樹中，同時(shí)保持項(xiàng)集之間的關(guān)聯(lián)關(guān)系。然后

9、將這棵壓縮后的頻繁模式樹分成一些條件子樹，每個(gè)條件子樹對(duì)應(yīng)一個(gè)頻繁項(xiàng)，從而獲得頻繁項(xiàng)集，最后進(jìn)行關(guān)聯(lián)規(guī)則挖掘。,FP-Growth算法由以下步驟組成：,掃描事務(wù)數(shù)據(jù)庫D，生成頻繁1項(xiàng)集L1,將頻繁1項(xiàng)集L1按照支持度遞減順序排序，得到排序后的項(xiàng)集L1,構(gòu)造FP樹,通過后綴模式與條件FP樹產(chǎn)生的頻繁模式連接實(shí)現(xiàn)模式增長,1,2,3,4,圖3-11 FP樹的構(gòu)造,of,65,9,,3.4 關(guān)聯(lián)規(guī)則,,,,,,,,,,,,,,,,,,,,,

10、,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,第三章數(shù)據(jù)挖掘算法,3.4.2 頻繁項(xiàng)集的產(chǎn)生及其經(jīng)典算法,3．辛普森悖論,雖然關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)項(xiàng)目之間的有趣關(guān)系，在某些情況下，隱藏的變量可能會(huì)導(dǎo)致觀察到的一對(duì)變量之間的聯(lián)系消失或逆轉(zhuǎn)方向，這種現(xiàn)象就是所謂的辛普森悖論（Simpson’s Paradox）。,為了避免辛普森悖論的出現(xiàn)，就需要斟酌各個(gè)分組的權(quán)重，并以一定的系數(shù)去消除以分組數(shù)據(jù)基數(shù)差異所造成的影響。同時(shí)必

11、須了解清楚情況，是否存在潛在因素，綜合考慮。,of,65,10,,,3.4 關(guān)聯(lián)規(guī)則,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,第三章數(shù)據(jù)挖掘算法,3.4.3 分類技術(shù),分類技術(shù)或分類法（Classification）是一種根據(jù)輸入樣本集建立類別模型，并按照類別模型對(duì)未知樣本類標(biāo)號(hào)進(jìn)行標(biāo)記的方法。,根據(jù)所采用的分類模型不同,基于決策樹模型的數(shù)據(jù)分類,基于統(tǒng)計(jì)模型的數(shù)據(jù)分類,基

12、于神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)分類,基于案例推理的數(shù)據(jù)分類,基于實(shí)例的數(shù)據(jù)分類,,1．決策樹,決策樹就是通過一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過程。,決策樹分類算法通常分為兩個(gè)步驟：構(gòu)造決策樹和修剪決策樹。,of,65,11,,3.4 關(guān)聯(lián)規(guī)則,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,第三章數(shù)據(jù)挖掘算法,3.4.3 分類技術(shù),構(gòu)造決策樹,修剪決策樹,根據(jù)實(shí)際需求及所處理數(shù)據(jù)的特性，選擇類別標(biāo)

13、識(shí)屬性和決策樹的決策屬性集,在決策屬性集中選擇最有分類標(biāo)識(shí)能力的屬性作為決策樹的當(dāng)前決策節(jié)點(diǎn),根據(jù)當(dāng)前決策節(jié)點(diǎn)屬性取值的不同，將訓(xùn)練樣本數(shù)據(jù)集劃分為若干子集,根據(jù)符合條件不同生成葉子節(jié)點(diǎn),對(duì)決策樹進(jìn)行修剪，除去不必要的分枝，同時(shí)也能使決策樹得到簡化。,,,,,常用的決策樹修剪策略,基于代價(jià)復(fù)雜度的修剪,悲觀修剪,最小描述長度修剪,,,,按照修剪的先后順序,先剪枝（Pre-pruning）,后剪枝（Post-pruning）,,,of,6

14、5,12,,3.4 關(guān)聯(lián)規(guī)則,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,第三章數(shù)據(jù)挖掘算法,3.4.3 分類技術(shù),2．k-最近鄰,,,,最臨近分類基于類比學(xué)習(xí)，是一種基于實(shí)例的學(xué)習(xí)，它使用具體的訓(xùn)練實(shí)例進(jìn)行預(yù)測，而不必維護(hù)源自數(shù)據(jù)的抽象（或模型）。它采用n 維數(shù)值屬性描述訓(xùn)練樣本，每個(gè)樣本代表n 維空間的一個(gè)點(diǎn)，即所有的訓(xùn)練樣本都存放在n 維空間中。若給定一個(gè)未知樣本，k-最

15、近鄰分類法搜索模式空間，計(jì)算該測試樣本與訓(xùn)練集中其他樣本的鄰近度，找出最接近未知樣本的k 個(gè)訓(xùn)練樣本，這k 個(gè)訓(xùn)練樣本就是未知樣本的k 個(gè)“近鄰”。其中的“鄰近度”一般采用歐幾里得距離定義：兩個(gè)點(diǎn) 和的Euclid距離是。,最近鄰分類是基于要求的或懶散的學(xué)習(xí)法，即它存放

16、所有的訓(xùn)練樣本，并且直到新的（未標(biāo)記的）樣本需要分類時(shí)才建立分類。其優(yōu)點(diǎn)是可以生成任意形狀的決策邊界，能提供更加靈活的模型表示。,of,65,13,,3.4 關(guān)聯(lián)規(guī)則,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,第三章數(shù)據(jù)挖掘算法,3.4.4 案例：保險(xiǎn)客戶風(fēng)險(xiǎn)分析,1．挖掘目標(biāo),,,,由過去大量的經(jīng)驗(yàn)數(shù)據(jù)發(fā)現(xiàn)機(jī)動(dòng)車輛事故率與駕駛者及所駕駛的車輛有著密切的關(guān)系，影響駕駛?cè)藛T安全

17、駕駛的主要因素有年齡、性別、駕齡、職業(yè)、婚姻狀況、車輛車型、車輛用途、車齡等。因此，客戶風(fēng)險(xiǎn)分析的挖掘目標(biāo)就是上述各主要因素與客戶風(fēng)險(xiǎn)之間的關(guān)系，等等。,2．?dāng)?shù)據(jù)預(yù)處理,數(shù)據(jù)準(zhǔn)備與預(yù)處理是數(shù)據(jù)挖掘中的首要步驟，高質(zhì)量的數(shù)據(jù)是獲得高質(zhì)量決策的先決條件。在實(shí)施數(shù)據(jù)挖掘之前，及時(shí)有效的數(shù)據(jù)預(yù)處理可以解決噪聲問題和處理缺失的信息，將有助于提高數(shù)據(jù)挖掘的精度和性能。,去除數(shù)據(jù)集之中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù)，處理遺漏數(shù)據(jù)和清洗“臟”數(shù)據(jù)等。數(shù)據(jù)清洗

18、處理通常包括處理噪聲數(shù)據(jù)、填補(bǔ)遺漏數(shù)據(jù)值/除去異常值、糾正數(shù)據(jù)不一致的問題，等等。,在處理完噪聲數(shù)據(jù)后，就可以對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)化，主要的方法有：聚集忽略無關(guān)屬性連續(xù)型屬性離散化等。,數(shù)據(jù)清洗,數(shù)據(jù)轉(zhuǎn)化,,,,of,65,14,,3.4 關(guān)聯(lián)規(guī)則,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,第三章數(shù)據(jù)挖掘算法,3.4.4 案例：保

19、險(xiǎn)客戶風(fēng)險(xiǎn)分析,3．關(guān)聯(lián)規(guī)則挖掘,,,,表3-7 客戶風(fēng)險(xiǎn)關(guān)聯(lián)規(guī)則,詳細(xì)分析所得數(shù)據(jù)，可以為公司業(yè)務(wù)提供數(shù)據(jù)支撐，針對(duì)不同客戶提供偏好服務(wù)，既能確保公司收益，又能給予用戶更多的實(shí)惠。,of,65,15,,全國高校標(biāo)準(zhǔn)教材《云計(jì)算》姊妹篇，剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用,,,of,65,16,,,,,3.5 預(yù)測模型,,,3.5.1 預(yù)測與預(yù)測模型,,第三章數(shù)據(jù)挖掘算法,預(yù)測分析是一種統(tǒng)計(jì)或數(shù)據(jù)挖掘解決方案，包含可在結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)

20、中使用以確定未來結(jié)果的算法和技術(shù)，可為預(yù)測、優(yōu)化、預(yù)報(bào)和模擬等許多其他相關(guān)用途而使用。,時(shí)間序列預(yù)測是一種歷史資料延伸預(yù)測，以時(shí)間序列所能反映的社會(huì)經(jīng)濟(jì)現(xiàn)象的發(fā)展過程和規(guī)律性，進(jìn)行引申外推預(yù)測發(fā)展趨勢的方法。,從時(shí)間序列數(shù)據(jù)中提取并組建特征，仍用原有的數(shù)據(jù)挖掘框架與算法進(jìn)行數(shù)據(jù)挖掘,將時(shí)間序列數(shù)據(jù)作為一種特殊的挖掘?qū)ο?，找尋?duì)應(yīng)的數(shù)據(jù)挖掘算法進(jìn)行專門研究,,,依據(jù)研究的方式分類,,,,相似性問題挖掘,時(shí)態(tài)模式挖掘,,,依據(jù)研究的內(nèi)容分類

21、,,,,,,依據(jù)研究的對(duì)象分類,,,事件序列的數(shù)據(jù)挖掘,事務(wù)序列的數(shù)據(jù)挖掘,數(shù)值序列的數(shù)據(jù)挖掘,時(shí)間序列預(yù)測及數(shù)據(jù)挖掘分類,of,65,17,,3.5 預(yù)測模型,,,3.5.1 預(yù)測與預(yù)測模型,,第三章數(shù)據(jù)挖掘算法,預(yù)測方案分類,,1）均值函數(shù),,,2）自協(xié)方差函數(shù),,,3）自相關(guān)函數(shù),,,,,of,65,18,,3.5 預(yù)測模型,,,3.5.1 預(yù)測與預(yù)測模型,,第三章數(shù)據(jù)挖掘算法,,,,,,,of,65,19,預(yù)測方案分類,,3

22、.5 預(yù)測模型,,,3.5.2 時(shí)間序列預(yù)測,,第三章數(shù)據(jù)挖掘算法,,,,,,,時(shí)間序列：對(duì)按時(shí)間順序排列而成的觀測值集合，進(jìn)行數(shù)據(jù)的預(yù)測或預(yù)估。,典型的算法：序貫?zāi)Ｊ酵诰騍PMGC算法,序貫?zāi)Ｊ酵诰蛩惴⊿PMGC（Sequential Pattern Mining Based on General Constrains）SPMGC算法可以有效地發(fā)現(xiàn)有價(jià)值的數(shù)據(jù)序列模式，提供給大數(shù)據(jù)專家們進(jìn)行各類時(shí)間序列的相似性與預(yù)測研究。,時(shí)間序列

23、領(lǐng)域約束規(guī)則,of,65,20,,,,,3.5 預(yù)測模型,,,3.5.2 時(shí)間序列預(yù)測,,第三章數(shù)據(jù)挖掘算法,,,,,,,SPMGC算法的基本處理流程,掃描時(shí)間序列數(shù)據(jù)庫，獲取滿足約束條件且長度為1的序列模式L1，以序列模式L1作為初始種子集,根據(jù)長度為i-1的種子集Li-1，通過連接與剪切運(yùn)算生成長度為i 并且滿足約束條件的候選序列模式Ci，基于此掃描序列數(shù)據(jù)庫，并計(jì)算每個(gè)候選序列模式Ci 的支持?jǐn)?shù)，從而產(chǎn)生長度為I 的序列模式Li

24、，將Li作為新種子集,在此重復(fù)上一步，直至沒有新的候選序列模式或新的序列模式產(chǎn)生,SPBGC算法首先對(duì)約束條件按照優(yōu)先級(jí)進(jìn)行排序，然后依據(jù)約束條件產(chǎn)生候選序列。SPBGC算法說明了怎樣使用約束條件來挖掘序貫?zāi)Ｊ?，然而，由于?yīng)用領(lǐng)域的不同，具體的約束條件也不盡相同，同時(shí)產(chǎn)生頻繁序列的過程也可采用其他序貫?zāi)Ｊ剿惴ā?,,of,65,21,,3.5 預(yù)測模型,,,3.5.3 案例：地震預(yù)警,,第三章數(shù)據(jù)挖掘算法,,,,,,,1．地震波形數(shù)據(jù)

25、存儲(chǔ)和計(jì)算平臺(tái),南京云創(chuàng)大數(shù)據(jù)有限公司為山東省地震局研發(fā)了一套可以處理海量數(shù)據(jù)的高性能地震波形數(shù)據(jù)存儲(chǔ)和計(jì)算平臺(tái)，將從現(xiàn)有的光盤中導(dǎo)入地震波形數(shù)據(jù)并加以管理，以提供集中式的地震波形數(shù)據(jù)分析與地震預(yù)測功能，為開展各種地震波形數(shù)據(jù)應(yīng)用提供海量數(shù)據(jù)存儲(chǔ)管理和計(jì)算服務(wù)能力。,圖3-12山東省地震波測數(shù)據(jù)云平臺(tái)的顯示界面,of,65,22,,,,,,,,3.5 預(yù)測模型,,,3.5.3 案例：地震預(yù)警,,第三章數(shù)據(jù)挖掘算法,,,,,,,2．地震

26、波形數(shù)據(jù)存儲(chǔ)和計(jì)算平臺(tái)的主要性能指標(biāo),數(shù)據(jù)存儲(chǔ)和處理指標(biāo),系統(tǒng)響應(yīng)時(shí)間指標(biāo),地震波形數(shù)據(jù)存儲(chǔ)性能指標(biāo),每年的原始地震波形數(shù)據(jù)及相關(guān)輔助信息約為15TB，為保證數(shù)據(jù)存儲(chǔ)的可靠性，要求采用3倍副本方式保存數(shù)據(jù)，云平臺(tái)每年需要提供約45TB的總存儲(chǔ)量，同時(shí)系統(tǒng)必須能實(shí)時(shí)接收和處理高達(dá)10MB/s的入庫數(shù)據(jù),千兆網(wǎng)絡(luò)環(huán)境下，局域網(wǎng)客戶端從分布式文件存儲(chǔ)系統(tǒng)中讀取4096B存儲(chǔ)內(nèi)容的響應(yīng)時(shí)間不高于50毫秒,采用HDFS格式進(jìn)行數(shù)據(jù)讀取，讀取性能為

27、40～80MB/s節(jié)點(diǎn)，數(shù)據(jù)規(guī)模10PB，數(shù)據(jù)負(fù)載均衡時(shí)間可依據(jù)流量配置而確定，集群重新啟動(dòng)時(shí)間按10PB規(guī)模計(jì)算達(dá)到分鐘級(jí)別,of,65,23,,3.5 預(yù)測模型,,,3.5.3 案例：地震預(yù)警,,第三章數(shù)據(jù)挖掘算法,,,,,,,3．地震波形數(shù)據(jù)存儲(chǔ)和計(jì)算平臺(tái)的功能設(shè)計(jì),數(shù)據(jù)解析,數(shù)據(jù)入庫,數(shù)據(jù)存儲(chǔ)管理,云計(jì)算平臺(tái)的數(shù)據(jù)應(yīng)用接口,數(shù)據(jù)異地修復(fù),,,,,,功能設(shè)計(jì),of,65,24,,3.5 預(yù)測模型,,,3.5.3 案例：地震預(yù)警,

28、,第三章數(shù)據(jù)挖掘算法,,,,,,,4．平臺(tái)的組成、總體構(gòu)架與功能模塊,圖3-13 地震波形數(shù)據(jù)云平臺(tái)總體構(gòu)架與功能模塊,of,65,25,,3.5 預(yù)測模型,,,3.5.3 案例：地震預(yù)警,,第三章數(shù)據(jù)挖掘算法,,,,,,,5．地震中的時(shí)間序列預(yù)測,地震預(yù)測的主要手段也就是對(duì)地震序列進(jìn)行特征研究。通過對(duì)地震序列的特征研究，可以幫助判斷某大地震發(fā)生后地質(zhì)活動(dòng)的規(guī)律，掌握一定區(qū)域內(nèi)地震前后震級(jí)次序間的某種內(nèi)在關(guān)聯(lián)性，有利于判斷次地震發(fā)

29、生后，震區(qū)地質(zhì)活動(dòng)的客觀趨勢,1）地震數(shù)據(jù)收集和預(yù)處理,采用SPBGC算法，預(yù)處理的流程步驟具體如下：,設(shè)定地震序列的空間跨度，并劃分震級(jí)標(biāo)準(zhǔn)M,依據(jù)地震目錄數(shù)據(jù)庫，將震級(jí)大于或等于震級(jí)標(biāo)準(zhǔn)M的地震信息存入大地震文件,獲取大地震文件中的每一條記錄E，并取得震級(jí)M與震中所在位置G,掃描地震目錄數(shù)據(jù)，對(duì)每一地震記錄E，均判斷當(dāng)前地震位置與震中G的距離是否滿足設(shè)定的空間跨度。如果滿足空間跨度，則將該記錄標(biāo)注為與震中等同的序列號(hào)，同時(shí)將震中為圓

30、心的區(qū)域范圍內(nèi)地震的次數(shù)加l；否則繼續(xù)處理下一條地震記錄,大地震文件處理完畢后，該階段地震數(shù)據(jù)收集和預(yù)處理階段結(jié)束,,,,,,of,65,26,,全國高校標(biāo)準(zhǔn)教材《云計(jì)算》姊妹篇，剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用,,,of,65,27,,,,,3.6數(shù)據(jù)挖掘算法綜合應(yīng)用,,,3.6.1 案例分析：精確營銷中的關(guān)聯(lián)規(guī)則應(yīng)用,,數(shù)據(jù)挖掘在各領(lǐng)域的應(yīng)用非常廣泛，只要該產(chǎn)業(yè)擁有具備分析價(jià)值與需求的數(shù)據(jù)倉儲(chǔ)或數(shù)據(jù)庫，都可以利用挖掘工具進(jìn)行有目的的挖掘

31、分析。一般較常見的應(yīng)用案例多發(fā)生在零售業(yè)、制造業(yè)、財(cái)務(wù)金融保險(xiǎn)、通信業(yè)及醫(yī)療服務(wù)等。,？,如何通過交叉銷售，得到更大的收入？,如何在銷售數(shù)據(jù)中發(fā)掘顧客的消費(fèi)習(xí)性，并由交易記錄找出顧客偏好的產(chǎn)品組合？,如何找出流失顧客的特征與推出新產(chǎn)品的時(shí)機(jī)點(diǎn)？,通過關(guān)聯(lián)規(guī)則挖掘來發(fā)現(xiàn)和捕捉數(shù)據(jù)間隱藏的重要關(guān)聯(lián)，從而為產(chǎn)品營銷提供技術(shù)支撐。,第三章數(shù)據(jù)挖掘算法,of,65,28,,3.6數(shù)據(jù)挖掘算法綜合應(yīng)用,,,3.6.2 挖掘目標(biāo)的提出,,第三章數(shù)

32、據(jù)挖掘算法,電子商務(wù)網(wǎng)站中的商品推薦為例,客戶忠誠度,影響因素,其他因素：如社會(huì)文化、國家政策等,客戶自身原因,企業(yè)原因,,數(shù)據(jù)挖掘技術(shù)可以建立客戶忠誠度分析模型，了解哪些因素對(duì)客戶的忠誠度有較大的影響，從而采取相應(yīng)措施。因此，基于數(shù)據(jù)挖掘技術(shù)的客戶忠誠度分析具有重要的應(yīng)用價(jià)值。,of,65,29,,3.6數(shù)據(jù)挖掘算法綜合應(yīng)用,,,3.6.3 分析方法與過程,,第三章數(shù)據(jù)挖掘算法,圖3-14 電子商務(wù)網(wǎng)站操作流程,of,65,30,

33、,3.6數(shù)據(jù)挖掘算法綜合應(yīng)用,,,3.6.3 分析方法與過程,,第三章數(shù)據(jù)挖掘算法,在電子商務(wù)系統(tǒng)中，忠誠度分析所需要的客戶信息和交易信息分別存放在網(wǎng)站數(shù)據(jù)庫的客戶表、訂單表及訂單明細(xì)表中。,將客戶的忠誠度分為4個(gè)等級(jí)：0——忠誠；1——由忠誠變?yōu)椴恢艺\；2——由不忠誠變?yōu)橹艺\；3——不忠誠。,表3-9 經(jīng)抽取而成的客戶信息表,所得到的用戶數(shù)據(jù)很難做到完整全面，用戶在注冊時(shí)可能選擇不填注冊信息的幾項(xiàng)，造成數(shù)據(jù)項(xiàng)空缺。對(duì)于空缺的數(shù)據(jù)項(xiàng)

34、，要視情況排除或填入默認(rèn)值。按照一般的統(tǒng)計(jì)劃分經(jīng)驗(yàn)來對(duì)屬性值進(jìn)行分段，實(shí)現(xiàn)離散化。,of,65,31,,3.6數(shù)據(jù)挖掘算法綜合應(yīng)用,,,3.6.3 分析方法與過程,,第三章數(shù)據(jù)挖掘算法,表3-10 經(jīng)離散變換后的客戶信息表,本案例采用基于信息論的ID3決策樹分類算法進(jìn)行客戶忠誠度分析。,客戶群細(xì)分使得公司可以更好地識(shí)別不同的客戶群體，區(qū)別對(duì)待不同客戶，采取不同的客戶策略，達(dá)到最優(yōu)化配置客戶資源的目的。,使用聚類算法進(jìn)行客戶群，數(shù)據(jù)

35、項(xiàng)處理過程主要將這些表內(nèi)反映客戶身份背景、購買興趣度等相關(guān)信息提取出來，并加以清理，除去噪聲數(shù)據(jù)，對(duì)信息不完全的數(shù)據(jù)填入默認(rèn)值或舍去，進(jìn)行必要的離散化變換。,of,65,32,,3.6數(shù)據(jù)挖掘算法綜合應(yīng)用,,,3.6.3 分析方法與過程,,第三章數(shù)據(jù)挖掘算法,表3-11 客戶興趣度表,商品推薦是電子商務(wù)網(wǎng)站用來向訪問網(wǎng)站的顧客提供商品信息和建議，并模擬銷售人員幫助顧客完成購買過程。它是利用數(shù)據(jù)挖掘技術(shù)在電子商務(wù)網(wǎng)站中來幫助顧客訪問有

36、興趣的產(chǎn)品信息。推薦可以是根據(jù)其他客戶的信息或此客戶的信息，參照該顧客以往的購買行為預(yù)測未來的購買行為，幫助用戶從龐大的商品目錄中挑選真正適合自己需要的商品。推薦技術(shù)在幫助了客戶的同時(shí)也提高了顧客對(duì)網(wǎng)站的滿意度，換來對(duì)商務(wù)網(wǎng)站的進(jìn)一步支持。,of,65,33,,1．依據(jù)研究的方式分類，可將時(shí)間序列預(yù)測與挖掘分為哪些類？2．根據(jù)預(yù)測方法的性質(zhì)將預(yù)測方法分為哪些類？各有何優(yōu)缺點(diǎn)？3．時(shí)序預(yù)測方面典型的算法有哪些？各有什么特點(diǎn)？4．什么

37、是序貫?zāi)Ｊ酵诰騍PMGC算法？5．時(shí)間序列預(yù)測方法分哪幾類？主要適用領(lǐng)域是哪些？,習(xí)題：,百度排名首位的大數(shù)據(jù)資料和交流中心,百度排名首位的云計(jì)算資料和交流中心,BDRack大數(shù)據(jù)實(shí)驗(yàn)一體機(jī),虛擬出百套集群，并行開展大數(shù)據(jù)實(shí)驗(yàn)預(yù)裝各種流行云計(jì)算和大數(shù)據(jù)平臺(tái)提供配套實(shí)驗(yàn)教程、課件、PPT和培訓(xùn),,,,,劉鵬看未來,云計(jì)算頭條,云創(chuàng)大數(shù)據(jù),中國大數(shù)據(jù),微信號(hào)： chinacloudnj,微信號(hào)： cstorbigdata,資源豐富、分

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

03.《大數(shù)據(jù)》配套之四第3章-數(shù)據(jù)挖掘算法下

文檔簡介

溫馨提示

最新文檔

評(píng)論

03.《大數(shù)據(jù)》配套之四第3章-數(shù)據(jù)挖掘算法下

文檔簡介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載