第6章數(shù)據(jù)挖掘

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-01-05 格式：pptx 頁(yè)數(shù)：95 大小：4.70MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁(yè)，還剩94頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2024/3/20,數(shù)據(jù)挖掘,1,第六章分類,什么是分類？什么是預(yù)測(cè)？關(guān)于分類和預(yù)測(cè)的問題用決策樹歸納分類貝葉斯分類基于規(guī)則的分類模式評(píng)估與選擇提高分類準(zhǔn)確率技術(shù)用后向傳播分類支持向量機(jī)惰性學(xué)習(xí)法其他分類方法基于分類的其他問題,2024/3/20,數(shù)據(jù)挖掘,2,分類和預(yù)測(cè),2024/3/20,數(shù)據(jù)挖掘,3,分類—一個(gè)兩步的過程,過擬合：在學(xué)習(xí)期間，可能包含了訓(xùn)練數(shù)據(jù)中的某些特定的異常，這些異常不在一般數(shù)據(jù)集中出現(xiàn)

2、,2024/3/20,數(shù)據(jù)挖掘,4,分類過程（1）：建立模型,2024/3/20,數(shù)據(jù)挖掘,5,分類過程（2）：使用模型進(jìn)行分類,數(shù)據(jù)預(yù)測(cè),也是一個(gè)兩步過程要預(yù)測(cè)的屬性值是一個(gè)連續(xù)值，而不是類標(biāo)號(hào)預(yù)測(cè)器是一個(gè)映射或函數(shù)y=f(x)，其中X是輸入，而輸出y是連續(xù)的或有序的值,2024/3/20,數(shù)據(jù)挖掘,6,2024/3/20,數(shù)據(jù)挖掘,7,有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),關(guān)于分類和預(yù)測(cè)的問題,2024/3/20,數(shù)據(jù)挖掘,8,數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)

3、清理數(shù)據(jù)清理是為了減少噪聲和處理缺失值相關(guān)性分析（特征選擇）刪除不相關(guān)屬性和冗余屬性數(shù)據(jù)變換概化和規(guī)格化,2024/3/20,數(shù)據(jù)挖掘,9,評(píng)估分類模型,預(yù)測(cè)的準(zhǔn)確率速率建立的時(shí)間使用模型的時(shí)間魯棒性（健壯性）處理噪聲和缺失值的能力可擴(kuò)展性（可伸縮性）磁盤常駐數(shù)據(jù)庫(kù)的效率,2024/3/20,數(shù)據(jù)挖掘,10,可解釋性被模型證實(shí)的理解力和洞察力規(guī)則的優(yōu)越性決策樹的大小分類規(guī)則的簡(jiǎn)潔性,2024/3/20

4、,數(shù)據(jù)挖掘,11,用決策樹歸納分類,決策樹一個(gè)類似于流程圖的樹狀結(jié)構(gòu)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試每個(gè)分支代表一個(gè)測(cè)試的輸出葉節(jié)點(diǎn)代表類或類分布決策樹的生成包括兩個(gè)過程樹的建構(gòu)首先所有的訓(xùn)練樣本都在根節(jié)點(diǎn)基于所選的屬性循環(huán)地劃分樣本樹剪枝識(shí)別和刪除那些反映噪聲或孤立點(diǎn)的分支,2024/3/20,數(shù)據(jù)挖掘,12,決策樹的使用：為一個(gè)未知的樣本分類給定一個(gè)類標(biāo)號(hào)未知的元組X，在決策樹上測(cè)試元組的屬性值，跟蹤一條由根到葉節(jié)

5、點(diǎn)的路徑，該葉節(jié)點(diǎn)就存放著該元組的類預(yù)測(cè),2024/3/20,數(shù)據(jù)挖掘,13,訓(xùn)練數(shù)據(jù)集,2024/3/20,數(shù)據(jù)挖掘,14,概念“buys_computer”的決策樹的輸出,決策樹歸納的算法,基本算法（貪心算法）自頂向下遞歸的分治的方式構(gòu)造判定樹根節(jié)點(diǎn)擁有所有訓(xùn)練樣本根據(jù)所選屬性將樣本劃分為不同子集在各個(gè)子集上遞歸地選擇屬性并劃分停止劃分的條件當(dāng)前子集所有樣本屬于同一個(gè)類沒有剩余屬性可以用來劃分（多數(shù)表決）沒有剩余樣本

6、可劃分,2024/3/20,數(shù)據(jù)挖掘,15,2024/3/20,數(shù)據(jù)挖掘,16,屬性選擇度量,2024/3/20,數(shù)據(jù)挖掘,17,信息增益(ID3/C4.5),,2024/3/20,數(shù)據(jù)挖掘,18,決策樹歸納的信息增益,,信息增益,2024/3/20,數(shù)據(jù)挖掘,19,用信息增益計(jì)算進(jìn)行屬性選擇,0.694,ID3算法存在的缺點(diǎn),ID3算法在選擇根結(jié)點(diǎn)和各內(nèi)部結(jié)點(diǎn)中的分枝屬性時(shí)，使用信息增益作為評(píng)價(jià)標(biāo)準(zhǔn)，傾向于選擇取值較多的屬性，在有些情

7、況下這類屬性不會(huì)提供太多有價(jià)值的信息,2024/3/20,數(shù)據(jù)挖掘,20,2024/3/20,數(shù)據(jù)挖掘,21,決策樹算法C4.5,分裂信息增益率,選取具有最大增益率的屬性作為分裂屬性,2024/3/20,數(shù)據(jù)挖掘,22,Gini Index (IBM IntelligentMiner),計(jì)算訓(xùn)練集T的不純度,2024/3/20,數(shù)據(jù)挖掘,23,幾種經(jīng)典算法介紹,CART采用一種二分遞歸分割，將當(dāng)前的樣本集分為兩個(gè)子樣本集對(duì)at

8、tributelist中屬性執(zhí)行該屬性上的一個(gè)劃分，計(jì)算此劃分的GINI系數(shù) 選取最小GINI系數(shù)的屬性 CHAID在Overfitting前停止樹的生成只能處理類別性屬性，連續(xù)型的輸入變量首先要進(jìn)行離散處理選擇分割。利用統(tǒng)計(jì)卡方檢驗(yàn)的屬性度量方法,基于最小描述長(zhǎng)度原理的屬性選擇度量（MDL）對(duì)于一組給定的實(shí)例數(shù)據(jù) D ，如果要對(duì)其進(jìn)行保存，為了節(jié)省存儲(chǔ)空間，一般采用某種模型對(duì)其進(jìn)行編碼壓

9、縮，然后再保存壓縮后的數(shù)據(jù)。同時(shí)，為了以后正確恢復(fù)這些實(shí)例數(shù)據(jù)，將所用的模型也保存起來。所以需要保存的數(shù)據(jù)長(zhǎng)度( 比特?cái)?shù)) 等于這些實(shí)例數(shù)據(jù)進(jìn)行編碼壓縮后的長(zhǎng)度加上保存模型所需的數(shù)據(jù)長(zhǎng)度，將該數(shù)據(jù)長(zhǎng)度稱為總描述長(zhǎng)度。選擇總描述長(zhǎng)度最小的模型最佳決策樹定義為需要最少二進(jìn)制位的樹,2024/3/20,數(shù)據(jù)挖掘,24,2024/3/20,數(shù)據(jù)挖掘,25,避免分類的過分適應(yīng),孤立點(diǎn),,Cart使用代價(jià)復(fù)雜度剪枝算法：樹的復(fù)雜度函數(shù)：

10、樹中樹葉節(jié)點(diǎn)的個(gè)數(shù)和樹的錯(cuò)誤率構(gòu)成的函數(shù)（樹誤分類的元組所占的百分比）代價(jià)復(fù)雜度的評(píng)估采用標(biāo)記類元組的剪枝集C4.5使用一種悲觀剪枝法類似于CART算法，使用錯(cuò)誤率評(píng)估的代價(jià)復(fù)雜度函數(shù)使用訓(xùn)練集數(shù)據(jù)評(píng)估代價(jià)復(fù)雜度，得到的錯(cuò)誤率值要使用一個(gè)調(diào)節(jié)因子重復(fù)和復(fù)制現(xiàn)象,2024/3/20,數(shù)據(jù)挖掘,26,2024/3/20,數(shù)據(jù)挖掘,27,大型數(shù)據(jù)庫(kù)中的分類,2024/3/20,數(shù)據(jù)挖掘,28,數(shù)據(jù)挖掘?qū)W習(xí)中可伸縮決策樹歸納方法,20

11、24/3/20,數(shù)據(jù)挖掘,29,為什么要進(jìn)行貝葉斯分類,2024/3/20,數(shù)據(jù)挖掘,30,引例,參加晚會(huì)后，第二天早晨呼吸中有酒精味的可能性有多大？如果頭疼，患腦瘤的概率有多大？如果參加了晚會(huì)，并且頭疼，那么患腦瘤的概率有多大？,,Party,,Hangover,,Brain Tumor,,Headache,,Smell Alcohol,,Pos Xray,,,,,,2024/3/20,數(shù)據(jù)挖掘,31,貝葉斯概率基礎(chǔ),先驗(yàn)概率：根

12、據(jù)歷史的資料或主觀判斷所確定的各種事件發(fā)生的概率:P(H), P(H)獨(dú)立于X后驗(yàn)概率：通過貝葉斯公式，結(jié)合調(diào)查等方式獲取了新的附加信息，對(duì)先驗(yàn)概率修正后得到的更符合實(shí)際的概率:P(H|X)條件概率：當(dāng)條件確定時(shí),某事件發(fā)生的概率就是該事件的條件概率：P(X|H),2024/3/20,數(shù)據(jù)挖掘,32,貝葉斯定理（貝葉斯公式）,已知P(X)、P(H)和P(X|H)計(jì)算P(H|X),2024/3/20,數(shù)據(jù)挖掘,33,貝葉斯分類,使用后

14、挖掘,34,樸素貝葉斯分類,給定具有許多屬性的數(shù)據(jù)集，計(jì)算P(X|Ci)的開銷很大，為降低計(jì)算量，給定了類條件獨(dú)立的樸素假定，其中Xk表示元組X屬性Ak的值如果Ak是分類屬性，則P(Xk|Ci)是D中屬性Ak的值為Xk的Ci類的元組數(shù)除以D中Ci類的元組數(shù)|Ci,D|如果Ak是連續(xù)值屬性，假定連續(xù)值屬性服從均值為?、標(biāo)準(zhǔn)差為?的高斯分布，分別是Ci類訓(xùn)練元組屬性Ak的值的均值和標(biāo)準(zhǔn)差,,2024/3/20,數(shù)

15、據(jù)挖掘,35,樸素貝葉斯分類,為了預(yù)測(cè)X的類標(biāo)號(hào)，對(duì)每個(gè)類Ci計(jì)算P(X|Ci)·P(Ci)，則預(yù)測(cè)元組X類標(biāo)號(hào)為Ci，當(dāng)且僅當(dāng) P(X|Ci)·P(Ci)> P(X|Cj)·P(Cj) 其中1≤j ≤m, j≠I貝葉斯分類的缺點(diǎn)：使用的假設(shè)(類條件獨(dú)立性)的不正確性缺乏可用的概率數(shù)據(jù),2024/3/20,數(shù)據(jù)挖掘

16、,36,樸素貝葉斯分類實(shí)例,2024/3/20,數(shù)據(jù)挖掘,37,2024/3/20,數(shù)據(jù)挖掘,38,拉普拉斯校準(zhǔn),如果得到了某個(gè)P(Xk|Ci)的零概率值，可以采用拉普拉斯校準(zhǔn)，即為每個(gè)值對(duì)增加一個(gè)元組。,1,1,1,1,2024/3/20,數(shù)據(jù)挖掘,39,由決策樹提取分類規(guī)則,,規(guī)則R可以用它的覆蓋率和準(zhǔn)確率來評(píng)估給定類標(biāo)記的數(shù)據(jù)集D中的一個(gè)元組X，設(shè) 為規(guī)則R覆蓋的元組數(shù)，為R正確分類的元組數(shù)，

17、是D中元組數(shù)覆蓋率公式準(zhǔn)確率公式,2024/3/20,數(shù)據(jù)挖掘,40,2024/3/20,數(shù)據(jù)挖掘,41,基本決策樹歸納的加強(qiáng),允許屬性具有連續(xù)值通過把連續(xù)屬性值劃分為離散的區(qū)間集來動(dòng)態(tài)定義新的離散值屬性處理缺省屬性值賦予屬性最常見的值屬性構(gòu)造基于存在的稀疏表示的屬性創(chuàng)建新的屬性這將減少碎片、重復(fù)和復(fù)制問題,分類的評(píng)價(jià)準(zhǔn)則,給定測(cè)試集Xtest={(xi,yi)|i=1,2,…,N}N表示測(cè)試集中的樣本個(gè)數(shù)xi

18、表示測(cè)試集中的數(shù)據(jù)樣本yi表示數(shù)據(jù)樣本xi的類標(biāo)號(hào)對(duì)于測(cè)試集的第j個(gè)類別，假設(shè)被正確分類的樣本數(shù)量為TPj被錯(cuò)誤分類的樣本數(shù)量為FNj其他類別被錯(cuò)誤分類為該類的樣本數(shù)據(jù)量為FPj,2024/3/20,數(shù)據(jù)挖掘,42,,精確度：代表測(cè)試集中被正確分類的數(shù)據(jù)樣本所占的比例,2024/3/20,數(shù)據(jù)挖掘,43,,查全率：表示在本類樣本中被正確分類的樣本所占的比例查準(zhǔn)率：表示被分類為該類的樣本中，真正屬于該類的樣本所占的比例,

19、2024/3/20,數(shù)據(jù)挖掘,44,,F-measure：是查全率和查準(zhǔn)率的組合表達(dá)式 β是可以調(diào)節(jié)的，通常取值為1,2024/3/20,數(shù)據(jù)挖掘,45,,幾何均值：是各個(gè)類別的查全率的平方根,2024/3/20,數(shù)據(jù)挖掘,46,其他比較分類器的指標(biāo),速度魯棒性可伸縮性可解釋性當(dāng)數(shù)據(jù)類比較均衡分布時(shí)，準(zhǔn)確率效果較好，其他度量如精確度、召回率、F-measure等更適合于類不平衡問題,2024/3/20,數(shù)據(jù)挖掘,47

20、,2024/3/20,數(shù)據(jù)挖掘,48,分類法的準(zhǔn)確性：評(píng)估方法,保持法以及隨機(jī)二次抽樣,2024/3/20,數(shù)據(jù)挖掘,49,裝袋和提升：提高分類準(zhǔn)確率的方法,這兩種技術(shù)都能夠提高分類器和預(yù)測(cè)器的準(zhǔn)確率將k個(gè)學(xué)習(xí)得到的模型系列M1，M2，…Mk組合起來，旨在創(chuàng)建一個(gè)改進(jìn)的復(fù)合模型M*,2024/3/20,數(shù)據(jù)挖掘,50,裝袋算法,采用有放回抽樣從原始元組集D中抽樣進(jìn)行k次迭代，由每個(gè)訓(xùn)練集Di學(xué)習(xí)，得到一個(gè)分類模型Mi每個(gè)分類器返回

21、它的類預(yù)測(cè)，將得票最多的類賦予未知樣本通過取給定檢驗(yàn)元組的每個(gè)預(yù)測(cè)平均值，裝袋也可以用于連續(xù)值的預(yù)測(cè),2024/3/20,數(shù)據(jù)挖掘,51,提升技術(shù)--算法,初始對(duì)給定數(shù)據(jù)集D，為每個(gè)樣本賦予相等的權(quán)重1/d按照樣本的權(quán)重從D中進(jìn)行有放回的抽樣，產(chǎn)生分類器每次迭代產(chǎn)生分類器后，重新根據(jù)分類器的錯(cuò)誤率調(diào)整樣本的權(quán)重最終提升的分類器M*組合每個(gè)個(gè)體分類器，其中每個(gè)分類器投票的權(quán)重是其準(zhǔn)確率的函數(shù),2024/3/20,數(shù)據(jù)挖掘,52,有

22、關(guān)獨(dú)立假設(shè),獨(dú)立假設(shè)使得計(jì)算成為可能當(dāng)獨(dú)立假設(shè)滿足時(shí)使用最優(yōu)分類器但是實(shí)踐中很少滿足，因?yàn)閷傩酝ǔＪ窍嚓P(guān)的試著克服這類限制貝葉斯網(wǎng)絡(luò)：聯(lián)合屬性的貝葉斯推理和因果關(guān)系決策樹：在一個(gè)時(shí)刻只推理一個(gè)屬性，首先考慮最重要的屬性貝葉斯網(wǎng)絡(luò)由兩個(gè)部分組成：有向無環(huán)圖和條件概率表,貝葉斯網(wǎng)絡(luò)的主要功能,貝葉斯網(wǎng)絡(luò)預(yù)測(cè)：已知一定的原因，利用貝葉斯網(wǎng)絡(luò)的推理計(jì)算，求出由原因?qū)е碌慕Y(jié)果發(fā)生的概率貝葉斯網(wǎng)絡(luò)診斷：已知發(fā)生了某些結(jié)果，根據(jù)貝葉斯網(wǎng)

23、絡(luò)推理計(jì)算造成該結(jié)果發(fā)生的原因和發(fā)生的概率貝葉斯網(wǎng)絡(luò)學(xué)習(xí)：用現(xiàn)有數(shù)據(jù)對(duì)先驗(yàn)知識(shí)的修正，能夠持續(xù)學(xué)習(xí)，上次學(xué)習(xí)得到的后驗(yàn)貝葉斯網(wǎng)絡(luò)變成下一次學(xué)習(xí)的先驗(yàn)貝葉斯網(wǎng)絡(luò)，每一次學(xué)習(xí)前用戶都可以對(duì)先驗(yàn)貝葉斯網(wǎng)絡(luò)進(jìn)行調(diào)整，使其更能體現(xiàn)數(shù)據(jù)中蘊(yùn)含的知識(shí),2024/3/20,數(shù)據(jù)挖掘,53,2024/3/20,數(shù)據(jù)挖掘,54,貝葉斯信念網(wǎng)絡(luò)（1）,,Party,,Hangover,,Brain Tumor,,Headache,,Smell Alcoho

24、l,,Pos Xray,,,,,,全概率公式,設(shè)A,B是兩個(gè)事件，那么A可以表示為顯然如果P(B)>0，則設(shè)實(shí)驗(yàn)E為樣本空間，A為E的事件，B1,B2…Bn為一個(gè)分割，且P(Bi)>0，則,2024/3/20,數(shù)據(jù)挖掘,57,概率和條件概率數(shù)據(jù),左表給出了事件發(fā)生的概率：PT發(fā)生的概率是0.2，不發(fā)生的概率是0.8右表給出了事件發(fā)生的條件概率：PT發(fā)生時(shí)，HO發(fā)生的概率是

25、0.7,,,已知節(jié)點(diǎn)PT時(shí)HO的條件概率,已知節(jié)點(diǎn)HO時(shí)SA的條件概率,已知節(jié)點(diǎn)BT時(shí)PX的條件概率,已知HO和BT時(shí)HA的條件概率,計(jì)算結(jié)點(diǎn)HA的概率：不知道任何結(jié)點(diǎn)發(fā)生與否的信息，結(jié)點(diǎn)的預(yù)測(cè),根據(jù)全概率公式：,一個(gè)原因結(jié)點(diǎn)明確情況下的預(yù)測(cè),計(jì)算已知參加晚會(huì)的情況下，頭疼發(fā)生的概率,2024/3/20,數(shù)據(jù)挖掘,62,訓(xùn)練貝葉斯信念網(wǎng)絡(luò),如果網(wǎng)絡(luò)拓?fù)湟阎⑶易兞渴强捎^測(cè)的，則訓(xùn)練網(wǎng)絡(luò)是直接的。該過程由計(jì)算CPT項(xiàng)組成，與樸素貝葉斯分類

26、涉及的概率計(jì)算類似當(dāng)網(wǎng)絡(luò)拓?fù)浣o定，而某些變量是隱藏的時(shí)，可以選擇不同的方法來訓(xùn)練信念網(wǎng)絡(luò)，梯度下降策略經(jīng)常使用計(jì)算CPT項(xiàng)如果網(wǎng)絡(luò)結(jié)構(gòu)是未知的，離散優(yōu)化技術(shù)被用于從已知的變量中產(chǎn)生網(wǎng)絡(luò)結(jié)構(gòu)，這也是一個(gè)研究課題,2024/3/20,數(shù)據(jù)挖掘,63,什么是神經(jīng)網(wǎng)絡(luò),也稱為人工神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)的基本組成成分：神經(jīng)元和與連接有關(guān)的權(quán)重,,,,,2024/3/20,數(shù)據(jù)挖掘,64,神經(jīng)網(wǎng)絡(luò),2024/3/20,數(shù)據(jù)挖掘,65,定義網(wǎng)絡(luò)拓

27、撲結(jié)構(gòu),,說明輸入層的單元數(shù)、隱藏層數(shù)、每個(gè)隱藏層的單元數(shù)和輸出層的單元數(shù)每個(gè)屬性的輸入測(cè)量值要規(guī)范化輸出層的單元數(shù)可以由類別數(shù)決定隱藏層單元數(shù)和權(quán)值沒有明確規(guī)定，可以通過交叉驗(yàn)證技術(shù)估計(jì),2024/3/20,數(shù)據(jù)挖掘,66,2024/3/20,數(shù)據(jù)挖掘,67,多層前饋神經(jīng)網(wǎng)絡(luò),前饋神經(jīng)網(wǎng)絡(luò)（feedforward neural network）：是指每個(gè)神經(jīng)元僅與下一層神經(jīng)元相連的神經(jīng)網(wǎng)絡(luò),人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用,2024/3/2

28、0,數(shù)據(jù)挖掘,68,,2024/3/20,數(shù)據(jù)挖掘,69,2024/3/20,數(shù)據(jù)挖掘,70,后向傳播（1）,2024/3/20,數(shù)據(jù)挖掘,71,后向傳播（2）,由前一層的輸出作為輸入i,與對(duì)應(yīng)的權(quán)w相乘形成加權(quán)和,再加上偏置對(duì)上面結(jié)果用一個(gè)非線性函數(shù)f作用形成本層的輸出.將較大的值映射到0-1之間,Logistic函數(shù),2024/3/20,數(shù)據(jù)挖掘,72,后向傳播（3）,Output nodes,Input nodes,Hid

29、den nodes,Output vector,Input vector: xi,wij,,2024/3/20,數(shù)據(jù)挖掘,73,計(jì)算實(shí)例,2024/3/20,數(shù)據(jù)挖掘,74,,一個(gè)訓(xùn)練樣本X={1,0,1},輸出為1X1=1,x2=0,x3=1,w14=0.2,w15=-0.3,w24=0.4,w25=0.1,w34=-0.5,w35=0.2,w46=-0.3,w56=-0.2,偏置值:節(jié)點(diǎn)4:-0.4,節(jié)點(diǎn)5:0.2,節(jié)點(diǎn)6:0.

30、1學(xué)習(xí)率設(shè)為0.9,2024/3/20,數(shù)據(jù)挖掘,75,節(jié)點(diǎn)4:輸入值:w14*x1+w24*x2+w34*x3+節(jié)點(diǎn)4的偏置=1*0.2+0.4*0-0.5*1-0.4=-0.7輸出值:用公式可得0.332同理:節(jié)點(diǎn)5輸入值0.1,輸出值0.525節(jié)點(diǎn)6:輸入值:w46*o4+w56*o5+節(jié)點(diǎn)6的偏置=-0.3*0.332-0.2*0.525+0.1=-0.105輸出值:0.474,2024/3/20,數(shù)據(jù)

31、挖掘,76,誤差計(jì)算,節(jié)點(diǎn)6:0.474*(1-0.474)*(1-0.474)=0.1311節(jié)點(diǎn)5:0.525*(1-0.525)*0.1311*(-0.2)=-0.0065同理節(jié)點(diǎn)4誤差為:-0.0087,給定訓(xùn)練元組的已知目標(biāo)值,2024/3/20,數(shù)據(jù)挖掘,77,更新權(quán)值和偏置值,W46:-0.3+(0.9)(0.1311)(0.332)=-0.261其他Wij同理節(jié)點(diǎn)6的偏置:0.1+(0.9)*(

32、0.1311)=0.218其他偏置同理,2024/3/20,數(shù)據(jù)挖掘,78,終止條件,收斂條件：前一周期所有的△Wij都小于某個(gè)指定閾值前一周期誤分類的元組百分比小于某個(gè)閾值超過預(yù)先制定的周期數(shù)可以采用改進(jìn)的模擬退火方法提高收斂速度,2024/3/20,數(shù)據(jù)挖掘,79,什么是支持向量機(jī),該算法使用一種非線性映射，將原訓(xùn)練數(shù)據(jù)映射到較高的維，在新維上，它搜索線性最佳分離超平面，成為將一類元組與其他類分離的決策邊界支持向量（基本

33、訓(xùn)練元組）和邊緣一種線性和非線性數(shù)據(jù)的有前途的新分類方法不容易過分?jǐn)M合，總是發(fā)現(xiàn)全局解對(duì)復(fù)雜非線性決策邊界的建模能力高度準(zhǔn)確,2024/3/20,數(shù)據(jù)挖掘,80,線性超平面,2024/3/20,數(shù)據(jù)挖掘,81,邊緣,落在超平面上的訓(xùn)練元組稱為支持向量類之間的最小寬度稱為邊緣,2024/3/20,數(shù)據(jù)挖掘,82,基于頻繁模式的分類,基于關(guān)聯(lián)分類的幾種方法CBA:使用頻繁項(xiàng)集挖掘的迭代方法伸縮性和準(zhǔn)確性都比C4.5要好CMA

34、R：采用FP增長(zhǎng)算法的變形來發(fā)現(xiàn)滿足最小支持度和最小置信度閾值的規(guī)則比CBA的平均準(zhǔn)確率稍高，其運(yùn)行時(shí)間、可伸縮性和內(nèi)存使用都更有效CPAR:使用覆蓋算法的規(guī)則歸納方法產(chǎn)生規(guī)則較少，對(duì)于大型訓(xùn)練數(shù)據(jù)集，更有效,2024/3/20,數(shù)據(jù)挖掘,83,其他的分類方法,K—最鄰近分類基于案例的推理遺傳算法粗糙集模糊集,2024/3/20,數(shù)據(jù)挖掘,84,基于實(shí)例的學(xué)習(xí)方法（惰性學(xué)習(xí)法）,急切學(xué)習(xí)法惰性學(xué)習(xí)法：存放所有分類樣本，并

35、且直到新的樣本需要分類時(shí)才建立分類典型的應(yīng)用K最近鄰分類法把訓(xùn)練樣本作為歐式空間的點(diǎn)存放局部加權(quán)回歸構(gòu)造局部近似基于案例的推理使用符號(hào)描述和基于知識(shí)的推論,2024/3/20,數(shù)據(jù)挖掘,85,K—最鄰近分類算法,2024/3/20,數(shù)據(jù)挖掘,86,有關(guān)K-NN算法的討論,對(duì)于k最近鄰分類，未知元組指派到它的k個(gè)最近鄰中的多數(shù)類如果屬性是類別屬性，則可以按照一定規(guī)則假定元組的屬性是數(shù)值的如果屬性值缺失，則假定取最大的可能

36、差近鄰數(shù)K的確定采用選取產(chǎn)生最小誤差率的K數(shù)值預(yù)測(cè)是返回未知元組的k個(gè)最近鄰的實(shí)數(shù)值的平均值,2024/3/20,數(shù)據(jù)挖掘,87,基于案例的推理(Case-Based Reasoning),找到一個(gè)好的相似性度量和組合解的合適的方法開發(fā)有效的索引技術(shù),2024/3/20,數(shù)據(jù)挖掘,88,關(guān)于消極和積極學(xué)習(xí)方法的評(píng)價(jià),2024/3/20,數(shù)據(jù)挖掘,89,遺傳算法(Genetic Algorithm),GA:基于類似于生物進(jìn)化的思想

37、每個(gè)規(guī)則可以用一個(gè)二進(jìn)制位串表示創(chuàng)建一個(gè)由隨機(jī)產(chǎn)生的規(guī)則組成的初始群體例如：IF A1 AND NOT A2 THEN C2 可以用’100’表示根據(jù)適者生存的原則，形成由當(dāng)前群體中最合適的規(guī)則組成的新的群體，以及這些規(guī)則的后代規(guī)則的適應(yīng)度用它對(duì)訓(xùn)練樣本集的適應(yīng)度來評(píng)估通過交叉和變異來產(chǎn)生后代,2024/3/20,數(shù)據(jù)挖掘,90,粗糙集方法,2024/3/20,數(shù)據(jù)挖掘,91,模糊集的方法,,2024/3/20,數(shù)據(jù)挖掘,9

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第6章數(shù)據(jù)挖掘

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

第6章數(shù)據(jù)挖掘

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載