2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩64頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第1章 認(rèn)識(shí)數(shù)據(jù)挖掘,數(shù)據(jù)挖掘定義機(jī)器學(xué)習(xí)數(shù)據(jù)查詢專家系統(tǒng)數(shù)據(jù)挖掘過程/作用/技術(shù)/應(yīng)用Weka數(shù)據(jù)挖掘軟件,本章目標(biāo),掌握數(shù)據(jù)挖掘的定義了解機(jī)器學(xué)習(xí)中的基本方法概念學(xué)習(xí)歸納學(xué)習(xí)有指導(dǎo)的學(xué)習(xí)無指導(dǎo)的聚類了解與數(shù)據(jù)挖掘有關(guān)的數(shù)據(jù)查詢、專家系統(tǒng)了解數(shù)據(jù)挖掘的過程、作用、技術(shù)、應(yīng)用掌握Weka數(shù)據(jù)挖掘軟件的使用方法,2024年3月22日星期五,第2頁(yè),共65頁(yè),1.1 數(shù)據(jù)挖掘定義,數(shù)據(jù)挖掘(Data Mining)

2、,技術(shù)角度利用一種或多種計(jì)算機(jī)學(xué)習(xí)技術(shù),從數(shù)據(jù)中自動(dòng)分析并提取信息的處理過程。目的是尋找和發(fā)現(xiàn)數(shù)據(jù)中潛在的有價(jià)值的信息、知識(shí)、規(guī)律、聯(lián)系和模式。數(shù)據(jù)挖掘與計(jì)算機(jī)科學(xué)有關(guān),一般使用機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、聯(lián)機(jī)分析處理、專家系統(tǒng)和模式識(shí)別等多種方法來實(shí)現(xiàn)。學(xué)科角度數(shù)據(jù)挖掘是一門交叉學(xué)科,涉及數(shù)據(jù)庫(kù)技術(shù)、人工智能技術(shù)、統(tǒng)計(jì)學(xué)、可視化技術(shù)、并行計(jì)算等多種技術(shù)。,2024年3月22日星期五,第4頁(yè),共65頁(yè),商業(yè)角度商業(yè)智能信息處理技術(shù);

3、圍繞商業(yè)目標(biāo)開展的,對(duì)大量商業(yè)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù),揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,是一種深層次的商業(yè)數(shù)據(jù)分析方法。,2024年3月22日星期五,第5頁(yè),共65頁(yè),數(shù)據(jù)挖掘(Data Mining),1.2 機(jī)器學(xué)習(xí),1.2.1 概念學(xué)習(xí),通過對(duì)大量實(shí)例進(jìn)行訓(xùn)練,從中發(fā)現(xiàn)經(jīng)驗(yàn)化規(guī)律的過程。機(jī)器學(xué)習(xí)結(jié)果的通常表現(xiàn)形式為概念。機(jī)器最擅長(zhǎng)的是學(xué)習(xí)概念。概念(Concept)具有某些共同

4、特征的對(duì)象、符號(hào)或事件的集合。概念可以從三個(gè)不同的角度來看待,2024年3月22日星期五,第7頁(yè),共65頁(yè),1.2.1 概念學(xué)習(xí),1、傳統(tǒng)角度(Classical View)所有概念都有明確的定義。2、概率角度(Probabilistic View)對(duì)個(gè)別樣本實(shí)例進(jìn)行概括性描述,概括性說明構(gòu)成了概率角度中的概念。3、樣本角度(Exemplar View)樣本角度中的概念是將某個(gè)概念中的典型實(shí)例組成一個(gè)集合,使用該集合來描述概

5、念定義。,2024年3月22日星期五,第8頁(yè),共65頁(yè),1.2.2 歸納學(xué)習(xí)(Induction-Based Learning),基于歸納的學(xué)習(xí)機(jī)器學(xué)習(xí)方式人類學(xué)習(xí)最重要方式之一人類通過對(duì)事物的特定實(shí)例的觀察,對(duì)所掌握的已有經(jīng)驗(yàn)材料研究。歸納學(xué)習(xí)從歸納中獲取和探索新知識(shí),并以概念的形式表現(xiàn)出來的學(xué)習(xí)。,2024年3月22日星期五,第9頁(yè),共65頁(yè),1.2.3 有指導(dǎo)的學(xué)習(xí)(Supervised Learning),定義通過對(duì)

6、大量已知分類或輸出結(jié)果值的實(shí)例進(jìn)行訓(xùn)練,調(diào)整分類模型的結(jié)構(gòu),達(dá)到建立能夠準(zhǔn)確分類或預(yù)測(cè)未知模型的目的。這種基于歸納的概念學(xué)習(xí)過程被稱為有指導(dǎo)(監(jiān)督)的學(xué)習(xí)。數(shù)據(jù)實(shí)例(Instance)用于有指導(dǎo)學(xué)習(xí)的樣本數(shù)據(jù)訓(xùn)練實(shí)例(Training Instance)用于訓(xùn)練的實(shí)例檢驗(yàn)實(shí)例(Test Instance)分類模型建立完成后,經(jīng)過檢驗(yàn)實(shí)例進(jìn)行檢驗(yàn),判斷模型是否能夠很好地應(yīng)用在未知實(shí)例的分類或預(yù)測(cè)中。,2024年3月22日星期五

7、,第10頁(yè),共65頁(yè),【例1.1】,給定如表1.1所示的數(shù)據(jù)集T,使用有指導(dǎo)的學(xué)習(xí)方法建立分類模型,對(duì)未知類別的實(shí)例進(jìn)行分類。,表1.1 感冒診斷假想數(shù)據(jù)集,2024年3月22日星期五,第12頁(yè),共65頁(yè),表1.1 感冒診斷假想數(shù)據(jù)集,決策樹(Decision Tree),倒立樹,非葉子節(jié)點(diǎn)表示在一個(gè)屬性上的分類檢查,葉子節(jié)點(diǎn)表示決策判斷的結(jié)果,該結(jié)果選擇了正確分類較多實(shí)例的分類。決策樹有很多算法(第2章),2024年3月22日星期五

8、,第13頁(yè),共65頁(yè),,圖1.1 感冒類型診斷C4.5決策樹,分類未知實(shí)例,分類模型建立和檢驗(yàn)完成后,就可以實(shí)際投入使用,即用該模型對(duì)未知分類的實(shí)例進(jìn)行分類。,2024年3月22日星期五,第14頁(yè),共65頁(yè),表1.2 未知分類的數(shù)據(jù)實(shí)例,產(chǎn)生式規(guī)則,決策樹一般都可以被翻譯為一個(gè)產(chǎn)生式規(guī)則集合。產(chǎn)生式規(guī)則的格式為:IF 前提條件 THEN 結(jié)論圖1.1翻譯為4條產(chǎn)生式規(guī)則(1)IF Sore-throat = No THEN

9、Cold-type = Viral(2)IF Sore-throat = Yes & Cooling-effect = Good THEN Cold-type = Viral (3)IF Sore-throat = Yes & Cooling-effect = Not good THEN Cold-type = Bacterial(4)IF Sore-throat = Yes & Cooling-eff

10、ect = Unknown THEN Cold-type = Bacterial,2024年3月22日星期五,第15頁(yè),共65頁(yè),1.2.4 無指導(dǎo)的聚類(Unsupervised Clustering),無指導(dǎo)(監(jiān)督)聚類一種無指導(dǎo)(無教師)的學(xué)習(xí);在學(xué)習(xí)訓(xùn)練之前,無預(yù)先定義好分類的實(shí)例,數(shù)據(jù)實(shí)例按照某種相似性度量方法,計(jì)算實(shí)例之間的相似程度,將最為相似的實(shí)例聚類在一個(gè)組——簇(Cluster)中,再解釋和理解每個(gè)簇的含義,從中

11、發(fā)現(xiàn)聚類的意義。,2024年3月22日星期五,第16頁(yè),共65頁(yè),【例1.2】,給定如表1.1所示的數(shù)據(jù)集T,使用無指導(dǎo)聚類方法,對(duì)所有實(shí)例進(jìn)行分類,解釋每個(gè)簇的含義。,挖掘準(zhǔn)備,刪除Cold-type(感冒類型)屬性選擇算法無指導(dǎo)聚類有很多種算法,K-means(K-均值)算法、凝聚聚類方法、概念分層Cobweb算法、EM算法等。K-means算法是一種最為常用和易用的算法。指定初始簇K-means(K-均值)算法在聚類前

12、指定一個(gè)初始的簇的個(gè)數(shù),本例指定為2。,2024年3月22日星期五,第18頁(yè),共65頁(yè),聚類結(jié)果,聚類為兩個(gè)簇,每個(gè)簇有5個(gè)實(shí)例,分別為Cluster0 = {1,3,4,8,9}Cluster1 = {2,5,6,7,10}每個(gè)簇的概念結(jié)構(gòu)可以表示為一個(gè)產(chǎn)生式規(guī)則(1)IF Increased -lym = Yes & Cooling-effect =Good THEN Cluster = 0(rule

13、accuracy = 4/4 = 100%,rule coverage = 4/5 = 80%)(2)IF Sore-throat = Yes & Cooling-effect = Not good THEN Cluster = 1(rule accuracy = 4/4 = 100%,rule coverage = 4/5 = 80%),2024年3月22日星期五,第19頁(yè),共65頁(yè),1.3 數(shù)據(jù)查詢,數(shù)據(jù)查詢(Data

14、 Query),通過數(shù)據(jù)查詢語(yǔ)言在數(shù)據(jù)中找出所需要的數(shù)據(jù)或信息。什么時(shí)候使用數(shù)據(jù)挖掘,什么時(shí)候使用數(shù)據(jù)查詢呢?獲取淺知識(shí)或多維知識(shí)(Multidimensional Knowledge)獲取數(shù)據(jù)中潛在的、隱藏的信息或知識(shí)——隱含知識(shí)(Hidden Knowledge),2024年3月22日星期五,第21頁(yè),共65頁(yè),1.4 專家系統(tǒng),專家系統(tǒng)(Expert System),一種具有“智能”的計(jì)算機(jī)軟件系統(tǒng)。能夠模擬某個(gè)領(lǐng)域的人類

15、專家的決策過程,解決那些需要人類專家處理的復(fù)雜問題。一般包含以規(guī)則形式表示的領(lǐng)域?qū)<业闹R(shí)和經(jīng)驗(yàn),系統(tǒng)就是利用這些知識(shí)和方法進(jìn)行推理和判斷,從而解決該領(lǐng)域中實(shí)際問題。專家(Expert)有能力解決領(lǐng)域中復(fù)雜問題的人通常被稱為該領(lǐng)域中的專家(Expert),2024年3月22日星期五,第23頁(yè),共65頁(yè),專家系統(tǒng)方法 與 數(shù)據(jù)挖掘方法,2024年3月22日星期五,第24頁(yè),共65頁(yè),,圖1.2 專家系統(tǒng)方法vs 數(shù)據(jù)挖掘方法,1.5

16、 數(shù)據(jù)挖掘的過程,KDD過程,數(shù)據(jù)挖掘是KDD過程中的一個(gè)階段(第3章)一次數(shù)據(jù)挖掘?qū)嶒?yàn)分為4個(gè)步驟(1)準(zhǔn)備數(shù)據(jù),包括準(zhǔn)備訓(xùn)練數(shù)據(jù)和檢驗(yàn)數(shù)據(jù)(2)選擇一種數(shù)據(jù)挖掘技術(shù)或算法,將數(shù)據(jù)提交給數(shù)據(jù)挖掘軟件(3)解釋和評(píng)估結(jié)果(4)模型應(yīng)用,2024年3月22日星期五,第26頁(yè),共65頁(yè),,圖1.3 數(shù)據(jù)挖掘?qū)嶒?yàn)過程示意圖,1.5.1 準(zhǔn)備數(shù)據(jù),是整個(gè)數(shù)據(jù)挖掘過程中較為重要和費(fèi)時(shí)費(fèi)力的階段。在明確數(shù)據(jù)挖掘目標(biāo)后,可以通過從傳統(tǒng)數(shù)據(jù)

17、庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和平面文件三種途徑收集和抽取數(shù)據(jù)。1、傳統(tǒng)數(shù)據(jù)庫(kù)操作型數(shù)據(jù)庫(kù)(Operational Database),它是面向日常事務(wù)處理的數(shù)據(jù)庫(kù),通常結(jié)構(gòu)為關(guān)系模型。數(shù)據(jù)庫(kù)中包含若干個(gè)規(guī)范化了的二維關(guān)系表。2、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)是面向決策支持而不是日常事務(wù)處理而設(shè)計(jì)的。3、平面文件一些數(shù)據(jù)量較小的數(shù)據(jù)集可以存儲(chǔ)在如Excel電子表格、.csv、.arff等平面文件中。,2024年3月22日星期

18、五,第27頁(yè),共65頁(yè),1.5.2 挖掘數(shù)據(jù),選擇一種數(shù)據(jù)挖掘技術(shù)或算法,將數(shù)據(jù)提交給數(shù)據(jù)挖掘工具,應(yīng)用該算法建立模型。選擇數(shù)據(jù)挖掘技術(shù)或算法需要考慮(1)判斷學(xué)習(xí)是有指導(dǎo)的還是無指導(dǎo)的。(2)數(shù)據(jù)集中的哪些實(shí)例和屬性提交給數(shù)據(jù)挖掘工具;哪些數(shù)據(jù)實(shí)例作為訓(xùn)練數(shù)據(jù);哪些數(shù)據(jù)實(shí)例作為檢驗(yàn)數(shù)據(jù)。(3)如何設(shè)置數(shù)據(jù)挖掘算法的參數(shù)。,2024年3月22日星期五,第28頁(yè),共65頁(yè),1.5.3 解釋和評(píng)估結(jié)果,對(duì)數(shù)據(jù)挖掘的輸出進(jìn)行檢查,評(píng)估

19、其是否達(dá)到挖掘目標(biāo),確定所發(fā)現(xiàn)的信息或知識(shí)是有價(jià)值的。數(shù)據(jù)挖掘的評(píng)估工具有多種(第5章)如果結(jié)果不理想,可以(1)(2)進(jìn)行重復(fù)實(shí)驗(yàn),直到得到滿意結(jié)果為止。(1)使用或選擇新的數(shù)據(jù)實(shí)例或?qū)傩裕?)選擇新的數(shù)據(jù)挖掘算法或參數(shù)一個(gè)數(shù)據(jù)挖掘過程是個(gè)迭代的過程。,2024年3月22日星期五,第29頁(yè),共65頁(yè),1.5.4 模型應(yīng)用,數(shù)據(jù)挖掘的終極目標(biāo)??梢詰?yīng)用分類模型解決如例1.1中的疾病診斷問題;可以應(yīng)用聚類模型解決對(duì)顧客的

20、分類,找出不同類中顧客的行為特征,從而為諸如促銷活動(dòng)等提供決策支持;可以通過應(yīng)用關(guān)聯(lián)分析模型,找出顧客購(gòu)買的商品之間的關(guān)聯(lián)關(guān)系,對(duì)于貨架擺放、商品促銷等提供決策支持。,2024年3月22日星期五,第30頁(yè),共65頁(yè),1.6 數(shù)據(jù)挖掘的作用,數(shù)據(jù)挖掘的作用,兩大類建立有指導(dǎo)的學(xué)習(xí)模型和無指導(dǎo)聚類模型。因變量(Dependent Variables)有指導(dǎo)的學(xué)習(xí)模型中的輸出屬性的值依賴于輸入屬性的取值,所以輸出屬性又被稱為因變量自

21、變量(Independent Variables)相對(duì)的,輸入屬性被稱為自變量,2024年3月22日星期五,第32頁(yè),共65頁(yè),數(shù)據(jù)挖掘的作用,2024年3月22日星期五,第33頁(yè),共65頁(yè),,圖1.4數(shù)據(jù)挖掘的作用,1.7 數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)挖掘技術(shù)(Data Mining Technique),對(duì)一組數(shù)據(jù)應(yīng)用一種數(shù)據(jù)挖掘方法。一般由一個(gè)數(shù)據(jù)挖掘算法和一個(gè)相關(guān)的知識(shí)結(jié)構(gòu),如樹結(jié)構(gòu)或規(guī)則來定義的。,2024年3月22日星期五,第35

22、頁(yè),共65頁(yè),1.7.1 神經(jīng)網(wǎng)絡(luò)(Neural Network),一種具有統(tǒng)計(jì)特性的數(shù)學(xué)模型。創(chuàng)建思想源于人類神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)、功能和運(yùn)行過程。試圖模擬人腦功能來完成學(xué)習(xí)。已經(jīng)成功地應(yīng)用于多個(gè)領(lǐng)域的問題中,是非常流行的數(shù)據(jù)挖掘技術(shù)。可以建立有指導(dǎo)學(xué)習(xí)模型和無指導(dǎo)聚類模型。輸入屬性必須是數(shù)值的,輸出屬性可以是數(shù)值的也可以是分類的。,2024年3月22日星期五,第36頁(yè),共65頁(yè),前饋(Feed-Forward)神經(jīng)網(wǎng),常用的有指

23、導(dǎo)的學(xué)習(xí)模型。全連接每一層的每個(gè)節(jié)點(diǎn)都與其下一層的所有節(jié)點(diǎn)相連接,而同層節(jié)點(diǎn)之間不相連。每個(gè)網(wǎng)絡(luò)連接上都具有權(quán)重值,如w1j、w2j、w3j。,2024年3月22日星期五,第37頁(yè),共65頁(yè),圖1.5 三層全連接前饋神經(jīng)網(wǎng),建立神經(jīng)網(wǎng)絡(luò)模型的兩個(gè)階段,第一個(gè)階段——學(xué)習(xí)訓(xùn)練階段將每個(gè)實(shí)例的輸入屬性值提交給輸入層節(jié)點(diǎn)。神經(jīng)網(wǎng)絡(luò)使用輸入值和網(wǎng)絡(luò)連接權(quán)重值來計(jì)算每個(gè)實(shí)例的輸出。將每個(gè)實(shí)例的輸出和希望的網(wǎng)絡(luò)輸出進(jìn)行比較,希望值和計(jì)算輸

24、出值之間的誤差通過修改連接權(quán)值傳回網(wǎng)絡(luò)。當(dāng)達(dá)到一定的迭代次數(shù)后或當(dāng)網(wǎng)絡(luò)收斂到一個(gè)預(yù)定的最低錯(cuò)誤率時(shí),訓(xùn)練終止。第二個(gè)階段——檢驗(yàn)階段固定網(wǎng)絡(luò)權(quán)重,將模型用于計(jì)算新實(shí)例的輸出值。,2024年3月22日星期五,第38頁(yè),共65頁(yè),1.7.2 回歸分析(Regression Analysis),一種統(tǒng)計(jì)分析方法??梢杂脕泶_定兩個(gè)或兩個(gè)以上變量之間的定量的依賴關(guān)系,并建立一個(gè)數(shù)學(xué)方程作為數(shù)學(xué)模型,來概化一組數(shù)值數(shù)據(jù),進(jìn)而進(jìn)行數(shù)值數(shù)據(jù)的估值

25、和預(yù)測(cè)。應(yīng)用非常廣泛。,2024年3月22日星期五,第39頁(yè),共65頁(yè),辦公樓數(shù)據(jù)集,2024年3月22日星期五,第40頁(yè),共65頁(yè),表1.3 辦公樓數(shù)據(jù)集,回歸模型,2024年3月22日星期五,第41頁(yè),共65頁(yè),y = 27.64×2500 + 12 529.77×3 + 2553.21×2?234.24×25 + 52 317.83 = 158 257.56,使用回歸方程預(yù)估辦公樓的價(jià)值。

26、設(shè)有一座未知價(jià)值的辦公樓,面積為 2500、3個(gè)辦公室、2 個(gè)入口,已使用 25 年,則其估計(jì)價(jià)值計(jì)算所得,為158 257.56。,1.7.3 關(guān)聯(lián)分析,一種關(guān)聯(lián)規(guī)則(Association Rule)挖掘技術(shù),用于發(fā)現(xiàn)數(shù)據(jù)中屬性之間的有價(jià)值的聯(lián)系。關(guān)聯(lián)規(guī)則可以有多個(gè)輸出屬性,一個(gè)規(guī)則的輸出屬性可以在另一規(guī)則中作為輸入屬性。關(guān)聯(lián)分析用來發(fā)現(xiàn)潛在的令人感興趣的商品購(gòu)買組合,是購(gòu)物籃分析的常用技術(shù)。關(guān)聯(lián)分析有多種算法,其中最著名的

27、為Agrawal等人于1993年提出的Apriori關(guān)聯(lián)分析算法。Apriori算法不支持?jǐn)?shù)值型數(shù)據(jù),在使用該算法之前,需要進(jìn)行必要的數(shù)據(jù)變換。,2024年3月22日星期五,第42頁(yè),共65頁(yè),【例1.3】,應(yīng)用Apriori算法,對(duì)表1.1中的數(shù)據(jù)集進(jìn)行關(guān)聯(lián)分析,找出感冒癥狀之間的關(guān)聯(lián)關(guān)系。,關(guān)聯(lián)規(guī)則,生成三條關(guān)聯(lián)規(guī)則(1)IF Leukocytosis = Yes THEN Fever = Yes(rule accuracy

28、= 5/5 = 100%,rule coverage = 5/8 = 62.5%)(2)IF Increased-lym = No THEN Sore-throat=Yes(rule accuracy = 4/4 = 100%,rule coverage = 4/7 = 57.1%)(3) IF Cooling-effect = Good THEN Fever = Yes(rule accuracy = 4/4 = 100%,r

29、ule coverage = 4/8 = 50%),2024年3月22日星期五,第44頁(yè),共65頁(yè),1.7.4 聚類技術(shù),基于劃分的聚類方法(K-means算法)基于分層的聚類方法基于模型的聚類方法。。。,2024年3月22日星期五,第45頁(yè),共65頁(yè),1.8 數(shù)據(jù)挖掘的應(yīng)用,1.8.1應(yīng)用領(lǐng)域,2024年3月22日星期五,第47頁(yè),共65頁(yè),圖1.6 www.kdnuggets.com網(wǎng)站公布的2012年數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域,1

30、.8.2 成功案例,除了最著名的沃爾瑪?shù)哪虿己推【浦?,還有(1)Empire Blue Cross公司利用DWT,甄別出虛假開立醫(yī)療憑據(jù)的醫(yī)生,節(jié)省濫賠支出。(2)金融犯罪強(qiáng)制網(wǎng)絡(luò)AI系統(tǒng)(FAIS)使用DWT ,識(shí)別大型現(xiàn)金交易中可能存在的洗錢行為。(3)加拿大西門菲沙大學(xué)(Simon Fraser)的KDD研究組根據(jù)其擁有的十幾年的客戶數(shù)據(jù),進(jìn)行數(shù)據(jù)挖掘分析,提出了新的電話收費(fèi)和管理辦法,制定出公司和客戶都受益的優(yōu)惠政策。

31、(4)美國(guó)梅?。∕ellon)銀行使用Intelligent Agent數(shù)據(jù)挖掘工具提高銷售和定價(jià)金融產(chǎn)品的準(zhǔn)確率。(5)美國(guó)西部通信(US West Communications)根據(jù)家庭大小、家庭成員平均年齡和所在地特征,使用數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)來確定客戶的傾向和需要,從而幫助簽約新客戶和增加與新客戶的交易額。(6)使用貝葉斯分類數(shù)據(jù)挖掘技術(shù),薩莎(Sacha)等人成功地通過心肌SPECT圖像對(duì)心肌灌注進(jìn)行分類,診斷患者是否患有冠

32、心病。(7)20世紀(jì)Fox公司利用數(shù)據(jù)挖掘技術(shù)分析票房收入來確定在各個(gè)市場(chǎng)環(huán)境中更容易被接受的演員和故事情節(jié)。(8)科學(xué)界普遍認(rèn)為存在兩種γ射線爆。慕克吉(Mukherjee)等人使用統(tǒng)計(jì)聚類分析法發(fā)現(xiàn)了第三類γ射線爆。(9)NBA球隊(duì)使用IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件Advanced Scout系統(tǒng)來優(yōu)化他們的戰(zhàn)術(shù)組合。(10)全球十大視頻網(wǎng)站 之一Netflix公司應(yīng)用大數(shù)據(jù)的挖掘技術(shù),成功營(yíng)銷熱播劇——《紙牌屋

33、》。,2024年3月22日星期五,第48頁(yè),共65頁(yè),1.9 Weka數(shù)據(jù)挖掘軟件,1.9.1 Weka簡(jiǎn)介,Weka(Waikato Environment for Knowledge Analysis,懷卡托智能分析環(huán)境)誕生于 University of Waikato(新西蘭懷卡托大學(xué))?;贘ava 的免費(fèi)開源軟件。集成了有關(guān)數(shù)據(jù)挖掘的機(jī)器學(xué)習(xí)算法和統(tǒng)計(jì)技術(shù),具有數(shù)據(jù)預(yù)處理、分類、聚類、關(guān)聯(lián)分析、屬性選擇和交互式可視化等

34、功能。操作簡(jiǎn)單、易學(xué)易用,作為入門軟件完成簡(jiǎn)單挖掘工作。若未安裝 JRE,需下載包含 JRE 的 Weka 版本(Weka 3.6.10),2024年3月22日星期五,第50頁(yè),共65頁(yè),1. Weka的特點(diǎn),Weka軟件特點(diǎn),(1)跨平臺(tái);(2)支持結(jié)構(gòu)化文本文件、數(shù)據(jù)挖掘格式文件和數(shù)據(jù)庫(kù)接口;(3)可處理連續(xù)型數(shù)值數(shù)據(jù)和離散型(字符型和日期型)數(shù)據(jù);(4)具有缺失數(shù)據(jù)處理、噪聲處理、標(biāo)準(zhǔn)化、數(shù)據(jù)離散化、屬性構(gòu)造、轉(zhuǎn)換變量、

35、拆分?jǐn)?shù)據(jù)、數(shù)據(jù)平滑等數(shù)據(jù)預(yù)處理功能;(5)具有分類、聚類、關(guān)聯(lián)和可視化等數(shù)據(jù)挖掘功能;(6)提供算法組合、用戶自定義算法嵌入、算法參數(shù)設(shè)置功能;(7)能夠生成基本報(bào)告、測(cè)試報(bào)告、輸出格式,實(shí)現(xiàn)模型解釋、模型比較、數(shù)據(jù)評(píng)分功能;(8)具有數(shù)據(jù)、挖掘過程及挖掘結(jié)果可視化功能。,2024年3月22日星期五,第52頁(yè),共65頁(yè),2. Weka的文件格式,ARFF文件,Weka默認(rèn)使用ARFF(Attribute-Relation Fil

36、e Format)。一種ASCII文本文件格式,由兩部分組成第一部分為頭信息(Head Information),包括對(duì)關(guān)系的聲明和對(duì)屬性的聲明;第二部分為數(shù)據(jù)信息(Data Information),即數(shù)據(jù)集中的數(shù)據(jù)實(shí)例(Instance)。,2024年3月22日星期五,第54頁(yè),共65頁(yè),圖1.7 表1.1感冒類型診斷數(shù)據(jù)集的arff文件格式,3. Weka的功能,4 種界面(GUI),(1)Explorer:數(shù)據(jù)挖掘用戶最

37、常用的界面。有6個(gè)選項(xiàng)卡(6種功能)Preprocess (預(yù)處理)Classify(分類)Cluster(聚類)Associate(關(guān)聯(lián)分析)Select attributes(屬性選擇)Visualize(可視化)(2)Experimenter(3)Knowledge Flow(4)Simple CLI,2024年3月22日星期五,第56頁(yè),共65頁(yè),實(shí)戰(zhàn),1.9.2 使用Weka建立決策樹模型1.9.3 使用

38、Weka進(jìn)行聚類1.9.4 使用Weka進(jìn)行關(guān)聯(lián)分析,2024年3月22日星期五,第57頁(yè),共65頁(yè),【例1.4】,使用Weka為表1.1感冒類型診斷數(shù)據(jù)集建立決策樹模型,并對(duì)表1.2中的未知類別的實(shí)例進(jìn)行分類。,實(shí)驗(yàn)步驟,1、準(zhǔn)備數(shù)據(jù)2、加載和預(yù)處理數(shù)據(jù)3、建立分類模型4、分類未知實(shí)例,2024年3月22日星期五,第59頁(yè),共65頁(yè),圖1.13 感冒類型診斷決策樹,圖1.14 表1.2中兩個(gè)未知實(shí)例的分類結(jié)果,【例1.5】,

39、使用Weka對(duì)表1.1感冒類型診斷數(shù)據(jù)集進(jìn)行聚類,解釋和評(píng)估聚類結(jié)果。,實(shí)驗(yàn)步驟,1、準(zhǔn)備數(shù)據(jù)2、加載和預(yù)處理數(shù)據(jù)3、聚類4、解釋和評(píng)估聚類結(jié)果,2024年3月22日星期五,第61頁(yè),共65頁(yè),圖1.17 感冒類型診斷聚類結(jié)果,【例1.6】,使用Weka分析表1.1感冒類型診斷數(shù)據(jù)集中數(shù)據(jù)的關(guān)聯(lián)關(guān)系。,實(shí)驗(yàn)步驟,1、準(zhǔn)備數(shù)據(jù)2、加載和預(yù)處理數(shù)據(jù)3、關(guān)聯(lián)分析4、解釋和評(píng)估結(jié)果,2024年3月22日星期五,第63頁(yè),共65頁(yè),圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論