版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、2024/3/20,數(shù)據(jù)挖掘,1,第六章 分類,什么是分類?什么是預(yù)測(cè)?關(guān)于分類和預(yù)測(cè)的問題用決策樹歸納分類貝葉斯分類基于規(guī)則的分類模式評(píng)估與選擇提高分類準(zhǔn)確率技術(shù)用后向傳播分類支持向量機(jī)惰性學(xué)習(xí)法其他分類方法基于分類的其他問題,2024/3/20,數(shù)據(jù)挖掘,2,分類和預(yù)測(cè),2024/3/20,數(shù)據(jù)挖掘,3,分類—一個(gè)兩步的過程,過擬合:在學(xué)習(xí)期間,可能包含了訓(xùn)練數(shù)據(jù)中的某些特定的異常,這些異常不在一般數(shù)據(jù)集中出現(xiàn)
2、,2024/3/20,數(shù)據(jù)挖掘,4,分類過程(1):建立模型,2024/3/20,數(shù)據(jù)挖掘,5,分類過程(2):使用模型進(jìn)行分類,數(shù)據(jù)預(yù)測(cè),也是一個(gè)兩步過程要預(yù)測(cè)的屬性值是一個(gè)連續(xù)值,而不是類標(biāo)號(hào)預(yù)測(cè)器是一個(gè)映射或函數(shù)y=f(x),其中X是輸入,而輸出y是連續(xù)的或有序的值,2024/3/20,數(shù)據(jù)挖掘,6,2024/3/20,數(shù)據(jù)挖掘,7,有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),關(guān)于分類和預(yù)測(cè)的問題,2024/3/20,數(shù)據(jù)挖掘,8,數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)
3、清理數(shù)據(jù)清理是為了減少噪聲和處理缺失值相關(guān)性分析(特征選擇)刪除不相關(guān)屬性和冗余屬性數(shù)據(jù)變換概化和規(guī)格化,2024/3/20,數(shù)據(jù)挖掘,9,評(píng)估分類模型,預(yù)測(cè)的準(zhǔn)確率速率建立的時(shí)間使用模型的時(shí)間魯棒性(健壯性)處理噪聲和缺失值的能力可擴(kuò)展性(可伸縮性)磁盤常駐數(shù)據(jù)庫(kù)的效率,2024/3/20,數(shù)據(jù)挖掘,10,可解釋性被模型證實(shí)的理解力和洞察力規(guī)則的優(yōu)越性決策樹的大小分類規(guī)則的簡(jiǎn)潔性,2024/3/20
4、,數(shù)據(jù)挖掘,11,用決策樹歸納分類,決策樹一個(gè)類似于流程圖的樹狀結(jié)構(gòu)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試每個(gè)分支代表一個(gè)測(cè)試的輸出葉節(jié)點(diǎn)代表類或類分布決策樹的生成包括兩個(gè)過程樹的建構(gòu)首先所有的訓(xùn)練樣本都在根節(jié)點(diǎn)基于所選的屬性循環(huán)地劃分樣本樹剪枝識(shí)別和刪除那些反映噪聲或孤立點(diǎn)的分支,2024/3/20,數(shù)據(jù)挖掘,12,決策樹的使用:為一個(gè)未知的樣本分類給定一個(gè)類標(biāo)號(hào)未知的元組X,在決策樹上測(cè)試元組的屬性值,跟蹤一條由根到葉節(jié)
5、點(diǎn)的路徑,該葉節(jié)點(diǎn)就存放著該元組的類預(yù)測(cè),2024/3/20,數(shù)據(jù)挖掘,13,訓(xùn)練數(shù)據(jù)集,2024/3/20,數(shù)據(jù)挖掘,14,概念“buys_computer”的決策樹的輸出,決策樹歸納的算法,基本算法(貪心算法)自頂向下遞歸的分治的方式構(gòu)造判定樹根節(jié)點(diǎn)擁有所有訓(xùn)練樣本根據(jù)所選屬性將樣本劃分為不同子集在各個(gè)子集上遞歸地選擇屬性并劃分停止劃分的條件當(dāng)前子集所有樣本屬于同一個(gè)類沒有剩余屬性可以用來劃分(多數(shù)表決)沒有剩余樣本
6、可劃分,2024/3/20,數(shù)據(jù)挖掘,15,2024/3/20,數(shù)據(jù)挖掘,16,屬性選擇度量,2024/3/20,數(shù)據(jù)挖掘,17,信息增益(ID3/C4.5),,2024/3/20,數(shù)據(jù)挖掘,18,決策樹歸納的信息增益,,信息增益,2024/3/20,數(shù)據(jù)挖掘,19,用信息增益計(jì)算進(jìn)行屬性選擇,0.694,ID3算法存在的缺點(diǎn),ID3算法在選擇根結(jié)點(diǎn)和各內(nèi)部結(jié)點(diǎn)中的分枝屬性時(shí),使用信息增益作為評(píng)價(jià)標(biāo)準(zhǔn),傾向于選擇取值較多的屬性,在有些情
7、況下這類屬性不會(huì)提供太多有價(jià)值的信息,2024/3/20,數(shù)據(jù)挖掘,20,2024/3/20,數(shù)據(jù)挖掘,21,決策樹算法C4.5,分裂信息增益率,選取具有最大增益率的屬性作為分裂屬性,2024/3/20,數(shù)據(jù)挖掘,22,Gini Index (IBM IntelligentMiner),計(jì)算訓(xùn)練集T的不純度,2024/3/20,數(shù)據(jù)挖掘,23,幾種經(jīng)典算法介紹,CART采用一種二分遞歸分割,將當(dāng)前的樣本集分為兩個(gè)子樣本集對(duì)at
8、tributelist中屬性執(zhí)行該屬性上的一個(gè)劃分,計(jì)算此劃分的GINI系數(shù) 選取最小GINI系數(shù)的屬性 CHAID在Overfitting前停止樹的生成只能處理類別性屬性,連續(xù)型的輸入變量首先要進(jìn)行離散處理 選擇分割。利用統(tǒng)計(jì)卡方檢驗(yàn)的屬性度量方法,基于最小描述長(zhǎng)度原理的屬性選擇度量(MDL)對(duì)于一組給定的實(shí)例數(shù)據(jù) D , 如果要對(duì)其進(jìn)行保存 ,為了節(jié)省存儲(chǔ)空間, 一 般采用某種模型對(duì)其進(jìn)行編碼壓
9、縮,然后再保存壓縮后的數(shù)據(jù)。同時(shí), 為了以后正確恢復(fù)這些實(shí)例數(shù)據(jù), 將所用的模型也保存起來。所以需要保存的數(shù)據(jù)長(zhǎng)度( 比特?cái)?shù)) 等于這些實(shí)例數(shù)據(jù)進(jìn)行編碼壓縮后的長(zhǎng)度加上保存模型所需的數(shù)據(jù)長(zhǎng)度, 將該數(shù)據(jù)長(zhǎng)度稱為總描述長(zhǎng)度。選擇總描述長(zhǎng)度最小的模型最佳決策樹定義為需要最少二進(jìn)制位的樹,2024/3/20,數(shù)據(jù)挖掘,24,2024/3/20,數(shù)據(jù)挖掘,25,避免分類的過分適應(yīng),孤立點(diǎn),,Cart使用代價(jià)復(fù)雜度剪枝算法:樹的復(fù)雜度函數(shù):
10、樹中樹葉節(jié)點(diǎn)的個(gè)數(shù)和樹的錯(cuò)誤率構(gòu)成的函數(shù)(樹誤分類的元組所占的百分比)代價(jià)復(fù)雜度的評(píng)估采用標(biāo)記類元組的剪枝集C4.5使用一種悲觀剪枝法類似于CART算法,使用錯(cuò)誤率評(píng)估的代價(jià)復(fù)雜度函數(shù)使用訓(xùn)練集數(shù)據(jù)評(píng)估代價(jià)復(fù)雜度,得到的錯(cuò)誤率值要使用一個(gè)調(diào)節(jié)因子重復(fù)和復(fù)制現(xiàn)象,2024/3/20,數(shù)據(jù)挖掘,26,2024/3/20,數(shù)據(jù)挖掘,27,大型數(shù)據(jù)庫(kù)中的分類,2024/3/20,數(shù)據(jù)挖掘,28,數(shù)據(jù)挖掘?qū)W習(xí)中可伸縮決策樹歸納方法,20
11、24/3/20,數(shù)據(jù)挖掘,29,為什么要進(jìn)行貝葉斯分類,2024/3/20,數(shù)據(jù)挖掘,30,引例,參加晚會(huì)后,第二天早晨呼吸中有酒精味的可能性有多大?如果頭疼,患腦瘤的概率有多大?如果參加了晚會(huì),并且頭疼,那么患腦瘤的概率有多大?,,Party,,Hangover,,Brain Tumor,,Headache,,Smell Alcohol,,Pos Xray,,,,,,2024/3/20,數(shù)據(jù)挖掘,31,貝葉斯概率基礎(chǔ),先驗(yàn)概率:根
12、據(jù)歷史的資料或主觀判斷所確定的各種事件發(fā)生的概率:P(H), P(H)獨(dú)立于X后驗(yàn)概率:通過貝葉斯公式,結(jié)合調(diào)查等方式獲取了新的附加信息,對(duì)先驗(yàn)概率修正后得到的更符合實(shí)際的概率:P(H|X)條件概率:當(dāng)條件確定時(shí),某事件發(fā)生的概率就是該事件的條件概率:P(X|H),2024/3/20,數(shù)據(jù)挖掘,32,貝葉斯定理(貝葉斯公式),已知P(X)、P(H)和P(X|H)計(jì)算P(H|X),2024/3/20,數(shù)據(jù)挖掘,33,貝葉斯分類,使用后
13、驗(yàn)概率可以形式化分類問題P(Ci|X)=樣本元組的概率X=屬于類CiE.g. P( class=N | outlook=sunny, windy=true,…)思想:把樣本X分派給類Ci以至于P(Ci|X)最大根據(jù)貝葉斯定理: P(Ci|X)= P(X|Ci)·P(Ci)/P(X)對(duì)于所有類而言P(X)為常數(shù)P(Ci)=|Ci,D|/|D|只要最大化P(X|Ci)·P(Ci),2024/3/20,數(shù)據(jù)
14、挖掘,34,樸素貝葉斯分類,給定具有許多屬性的數(shù)據(jù)集,計(jì)算P(X|Ci)的開銷很大,為降低計(jì)算量,給定了類條件獨(dú)立的樸素假定,其中Xk表示元組X屬性Ak的值如果Ak是分類屬性,則P(Xk|Ci)是D中屬性Ak的值為Xk的Ci類的元組數(shù)除以D中Ci類的元組數(shù)|Ci,D|如果Ak是連續(xù)值屬性,假定連續(xù)值屬性服從均值為?、標(biāo)準(zhǔn)差為?的高斯分布, 分別是Ci類訓(xùn)練元組屬性Ak的值的均值和標(biāo)準(zhǔn)差,,2024/3/20,數(shù)
15、據(jù)挖掘,35,樸素貝葉斯分類,為了預(yù)測(cè)X的類標(biāo)號(hào),對(duì)每個(gè)類Ci計(jì)算P(X|Ci)·P(Ci),則預(yù)測(cè)元組X類標(biāo)號(hào)為Ci,當(dāng)且僅當(dāng) P(X|Ci)·P(Ci)> P(X|Cj)·P(Cj) 其中1≤j ≤m, j≠I貝葉斯分類的缺點(diǎn):使用的假設(shè)(類條件獨(dú)立性)的不正確性缺乏可用的概率數(shù)據(jù),2024/3/20,數(shù)據(jù)挖掘
16、,36,樸素貝葉斯分類實(shí)例,2024/3/20,數(shù)據(jù)挖掘,37,2024/3/20,數(shù)據(jù)挖掘,38,拉普拉斯校準(zhǔn),如果得到了某個(gè)P(Xk|Ci)的零概率值,可以采用拉普拉斯校準(zhǔn),即為每個(gè)值對(duì)增加一個(gè)元組。,1,1,1,1,2024/3/20,數(shù)據(jù)挖掘,39,由決策樹提取分類規(guī)則,,規(guī)則R可以用它的覆蓋率和準(zhǔn)確率來評(píng)估給定類標(biāo)記的數(shù)據(jù)集D中的一個(gè)元組X,設(shè) 為規(guī)則R覆蓋的元組數(shù), 為R正確分類的元組數(shù),
17、 是D中元組數(shù)覆蓋率公式準(zhǔn)確率公式,2024/3/20,數(shù)據(jù)挖掘,40,2024/3/20,數(shù)據(jù)挖掘,41,基本決策樹歸納的加強(qiáng),允許屬性具有連續(xù)值通過把連續(xù)屬性值劃分為離散的區(qū)間集來動(dòng)態(tài)定義新的離散值屬性處理缺省屬性值賦予屬性最常見的值屬性構(gòu)造基于存在的稀疏表示的屬性創(chuàng)建新的屬性這將減少碎片、重復(fù)和復(fù)制問題,分類的評(píng)價(jià)準(zhǔn)則,給定測(cè)試集Xtest={(xi,yi)|i=1,2,…,N}N表示測(cè)試集中的樣本個(gè)數(shù)xi
18、表示測(cè)試集中的數(shù)據(jù)樣本yi表示數(shù)據(jù)樣本xi的類標(biāo)號(hào)對(duì)于測(cè)試集的第j個(gè)類別,假設(shè)被正確分類的樣本數(shù)量為TPj被錯(cuò)誤分類的樣本數(shù)量為FNj其他類別被錯(cuò)誤分類為該類的樣本數(shù)據(jù)量為FPj,2024/3/20,數(shù)據(jù)挖掘,42,,精確度:代表測(cè)試集中被正確分類的數(shù)據(jù)樣本所占的比例,2024/3/20,數(shù)據(jù)挖掘,43,,查全率:表示在本類樣本中被正確分類的樣本所占的比例 查準(zhǔn)率:表示被分類為該類的樣本中,真正屬于該類的樣本所占的比例,
19、2024/3/20,數(shù)據(jù)挖掘,44,,F-measure:是查全率和查準(zhǔn)率的組合表達(dá)式 β是可以調(diào)節(jié)的,通常取值為1,2024/3/20,數(shù)據(jù)挖掘,45,,幾何均值 :是各個(gè)類別的查全率的平方根,2024/3/20,數(shù)據(jù)挖掘,46,其他比較分類器的指標(biāo),速度魯棒性可伸縮性可解釋性當(dāng)數(shù)據(jù)類比較均衡分布時(shí),準(zhǔn)確率效果較好,其他度量如精確度、召回率、F-measure等更適合于類不平衡問題,2024/3/20,數(shù)據(jù)挖掘,47
20、,2024/3/20,數(shù)據(jù)挖掘,48,分類法的準(zhǔn)確性:評(píng)估方法,保持法以及隨機(jī)二次抽樣,2024/3/20,數(shù)據(jù)挖掘,49,裝袋和提升:提高分類準(zhǔn)確率的方法,這兩種技術(shù)都能夠提高分類器和預(yù)測(cè)器的準(zhǔn)確率將k個(gè)學(xué)習(xí)得到的模型系列M1,M2,…Mk組合起來,旨在創(chuàng)建一個(gè)改進(jìn)的復(fù)合模型M*,2024/3/20,數(shù)據(jù)挖掘,50,裝袋算法,采用有放回抽樣從原始元組集D中抽樣進(jìn)行k次迭代,由每個(gè)訓(xùn)練集Di學(xué)習(xí),得到一個(gè)分類模型Mi每個(gè)分類器返回
21、它的類預(yù)測(cè),將得票最多的類賦予未知樣本通過取給定檢驗(yàn)元組的每個(gè)預(yù)測(cè)平均值,裝袋也可以用于連續(xù)值的預(yù)測(cè),2024/3/20,數(shù)據(jù)挖掘,51,提升技術(shù)--算法,初始對(duì)給定數(shù)據(jù)集D,為每個(gè)樣本賦予相等的權(quán)重1/d按照樣本的權(quán)重從D中進(jìn)行有放回的抽樣,產(chǎn)生分類器每次迭代產(chǎn)生分類器后,重新根據(jù)分類器的錯(cuò)誤率調(diào)整樣本的權(quán)重最終提升的分類器M*組合每個(gè)個(gè)體分類器,其中每個(gè)分類器投票的權(quán)重是其準(zhǔn)確率的函數(shù),2024/3/20,數(shù)據(jù)挖掘,52,有
22、關(guān)獨(dú)立假設(shè),獨(dú)立假設(shè)使得計(jì)算成為可能當(dāng)獨(dú)立假設(shè)滿足時(shí)使用最優(yōu)分類器但是實(shí)踐中很少滿足,因?yàn)閷傩酝ǔJ窍嚓P(guān)的試著克服這類限制貝葉斯網(wǎng)絡(luò):聯(lián)合屬性的貝葉斯推理和因果關(guān)系決策樹:在一個(gè)時(shí)刻只推理一個(gè)屬性,首先考慮最重要的屬性貝葉斯網(wǎng)絡(luò)由兩個(gè)部分組成:有向無環(huán)圖和條件概率表,貝葉斯網(wǎng)絡(luò)的主要功能,貝葉斯網(wǎng)絡(luò)預(yù)測(cè):已知一定的原因,利用貝葉斯網(wǎng)絡(luò)的推理計(jì)算,求出由原因?qū)е碌慕Y(jié)果發(fā)生的概率貝葉斯網(wǎng)絡(luò)診斷:已知發(fā)生了某些結(jié)果,根據(jù)貝葉斯網(wǎng)
23、絡(luò)推理計(jì)算造成該結(jié)果發(fā)生的原因和發(fā)生的概率貝葉斯網(wǎng)絡(luò)學(xué)習(xí):用現(xiàn)有數(shù)據(jù)對(duì)先驗(yàn)知識(shí)的修正,能夠持續(xù)學(xué)習(xí),上次學(xué)習(xí)得到的后驗(yàn)貝葉斯網(wǎng)絡(luò)變成下一次學(xué)習(xí)的先驗(yàn)貝葉斯網(wǎng)絡(luò),每一次學(xué)習(xí)前用戶都可以對(duì)先驗(yàn)貝葉斯網(wǎng)絡(luò)進(jìn)行調(diào)整,使其更能體現(xiàn)數(shù)據(jù)中蘊(yùn)含的知識(shí),2024/3/20,數(shù)據(jù)挖掘,53,2024/3/20,數(shù)據(jù)挖掘,54,貝葉斯信念網(wǎng)絡(luò)(1),,Party,,Hangover,,Brain Tumor,,Headache,,Smell Alcoho
24、l,,Pos Xray,,,,,,全概率公式,設(shè)A,B是兩個(gè)事件,那么A可以表示為顯然 如果P(B)>0,則設(shè)實(shí)驗(yàn)E為樣本空間,A為E的事件,B1,B2…Bn為一個(gè)分割,且P(Bi)>0,則,2024/3/20,數(shù)據(jù)挖掘,57,概率和條件概率數(shù)據(jù),左表給出了事件發(fā)生的概率:PT發(fā)生的概率是0.2,不發(fā)生的概率是0.8右表給出了事件發(fā)生的條件概率:PT發(fā)生時(shí),HO發(fā)生的概率是
25、0.7,,,已知節(jié)點(diǎn)PT時(shí)HO的條件概率,已知節(jié)點(diǎn)HO時(shí)SA的條件概率,已知節(jié)點(diǎn)BT時(shí)PX的條件概率,已知HO和BT時(shí)HA的條件概率,計(jì)算結(jié)點(diǎn)HA的概率:不知道任何結(jié)點(diǎn)發(fā)生與否的信息,結(jié)點(diǎn)的預(yù)測(cè),根據(jù)全概率公式:,一個(gè)原因結(jié)點(diǎn)明確情況下的預(yù)測(cè),計(jì)算已知參加晚會(huì)的情況下,頭疼發(fā)生的概率,2024/3/20,數(shù)據(jù)挖掘,62,訓(xùn)練貝葉斯信念網(wǎng)絡(luò),如果網(wǎng)絡(luò)拓?fù)湟阎⑶易兞渴强捎^測(cè)的,則訓(xùn)練網(wǎng)絡(luò)是直接的。該過程由計(jì)算CPT項(xiàng)組成,與樸素貝葉斯分類
26、涉及的概率計(jì)算類似當(dāng)網(wǎng)絡(luò)拓?fù)浣o定,而某些變量是隱藏的時(shí),可以選擇不同的方法來訓(xùn)練信念網(wǎng)絡(luò),梯度下降策略經(jīng)常使用計(jì)算CPT項(xiàng)如果網(wǎng)絡(luò)結(jié)構(gòu)是未知的,離散優(yōu)化技術(shù)被用于從已知的變量中產(chǎn)生網(wǎng)絡(luò)結(jié)構(gòu),這也是一個(gè)研究課題,2024/3/20,數(shù)據(jù)挖掘,63,什么是神經(jīng)網(wǎng)絡(luò),也稱為人工神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)的基本組成成分:神經(jīng)元和與連接有關(guān)的權(quán)重,,,,,2024/3/20,數(shù)據(jù)挖掘,64,神經(jīng)網(wǎng)絡(luò),2024/3/20,數(shù)據(jù)挖掘,65,定義網(wǎng)絡(luò)拓
27、撲結(jié)構(gòu),,說明輸入層的單元數(shù)、隱藏層數(shù)、每個(gè)隱藏層的單元數(shù)和輸出層的單元數(shù)每個(gè)屬性的輸入測(cè)量值要規(guī)范化輸出層的單元數(shù)可以由類別數(shù)決定隱藏層單元數(shù)和權(quán)值沒有明確規(guī)定,可以通過交叉驗(yàn)證技術(shù)估計(jì),2024/3/20,數(shù)據(jù)挖掘,66,2024/3/20,數(shù)據(jù)挖掘,67,多層前饋神經(jīng)網(wǎng)絡(luò),前饋神經(jīng)網(wǎng)絡(luò)(feedforward neural network):是指每個(gè)神經(jīng)元僅與下一層神經(jīng)元相連的神經(jīng)網(wǎng)絡(luò),人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用,2024/3/2
28、0,數(shù)據(jù)挖掘,68,,2024/3/20,數(shù)據(jù)挖掘,69,2024/3/20,數(shù)據(jù)挖掘,70,后向傳播(1),2024/3/20,數(shù)據(jù)挖掘,71,后向傳播(2),由前一層的輸出作為輸入i,與對(duì)應(yīng)的權(quán)w相乘形成加權(quán)和,再加上偏置對(duì)上面結(jié)果用一個(gè)非線性函數(shù)f作用形成本層的輸出.將較大的值映射到0-1之間,Logistic函數(shù),2024/3/20,數(shù)據(jù)挖掘,72,后向傳播(3),Output nodes,Input nodes,Hid
29、den nodes,Output vector,Input vector: xi,wij,,2024/3/20,數(shù)據(jù)挖掘,73,計(jì)算實(shí)例,2024/3/20,數(shù)據(jù)挖掘,74,,一個(gè)訓(xùn)練樣本X={1,0,1},輸出為1X1=1,x2=0,x3=1,w14=0.2,w15=-0.3,w24=0.4,w25=0.1,w34=-0.5,w35=0.2,w46=-0.3,w56=-0.2,偏置值:節(jié)點(diǎn)4:-0.4,節(jié)點(diǎn)5:0.2,節(jié)點(diǎn)6:0.
30、1學(xué)習(xí)率設(shè)為0.9,2024/3/20,數(shù)據(jù)挖掘,75,節(jié)點(diǎn)4:輸入值:w14*x1+w24*x2+w34*x3+節(jié)點(diǎn)4的偏置=1*0.2+0.4*0-0.5*1-0.4=-0.7輸出值:用公式可得0.332同理:節(jié)點(diǎn)5輸入值0.1,輸出值0.525節(jié)點(diǎn)6:輸入值:w46*o4+w56*o5+節(jié)點(diǎn)6的偏置=-0.3*0.332-0.2*0.525+0.1=-0.105輸出值:0.474,2024/3/20,數(shù)據(jù)
31、挖掘,76,誤差計(jì)算,節(jié)點(diǎn)6:0.474*(1-0.474)*(1-0.474)=0.1311節(jié)點(diǎn)5:0.525*(1-0.525)*0.1311*(-0.2)=-0.0065同理節(jié)點(diǎn)4誤差為:-0.0087,給定訓(xùn)練元組的已知目標(biāo)值,2024/3/20,數(shù)據(jù)挖掘,77,更新權(quán)值和偏置值,W46:-0.3+(0.9)(0.1311)(0.332)=-0.261其他Wij同理節(jié)點(diǎn)6的偏置:0.1+(0.9)*(
32、0.1311)=0.218其他偏置同理,2024/3/20,數(shù)據(jù)挖掘,78,終止條件,收斂條件:前一周期所有的△Wij都小于某個(gè)指定閾值前一周期誤分類的元組百分比小于某個(gè)閾值超過預(yù)先制定的周期數(shù)可以采用改進(jìn)的模擬退火方法提高收斂速度,2024/3/20,數(shù)據(jù)挖掘,79,什么是支持向量機(jī),該算法使用一種非線性映射,將原訓(xùn)練數(shù)據(jù)映射到較高的維,在新維上,它搜索線性最佳分離超平面,成為將一類元組與其他類分離的決策邊界支持向量(基本
33、訓(xùn)練元組)和邊緣一種線性和非線性數(shù)據(jù)的有前途的新分類方法不容易過分?jǐn)M合,總是發(fā)現(xiàn)全局解對(duì)復(fù)雜非線性決策邊界的建模能力高度準(zhǔn)確,2024/3/20,數(shù)據(jù)挖掘,80,線性超平面,2024/3/20,數(shù)據(jù)挖掘,81,邊緣,落在超平面上的訓(xùn)練元組稱為支持向量類之間的最小寬度稱為邊緣,2024/3/20,數(shù)據(jù)挖掘,82,基于頻繁模式的分類,基于關(guān)聯(lián)分類的幾種方法CBA:使用頻繁項(xiàng)集挖掘的迭代方法伸縮性和準(zhǔn)確性都比C4.5要好CMA
34、R:采用FP增長(zhǎng)算法的變形來發(fā)現(xiàn)滿足最小支持度和最小置信度閾值的規(guī)則比CBA的平均準(zhǔn)確率稍高,其運(yùn)行時(shí)間、可伸縮性和內(nèi)存使用都更有效CPAR:使用覆蓋算法的規(guī)則歸納方法產(chǎn)生規(guī)則較少,對(duì)于大型訓(xùn)練數(shù)據(jù)集,更有效,2024/3/20,數(shù)據(jù)挖掘,83,其他的分類方法,K—最鄰近分類基于案例的推理遺傳算法粗糙集模糊集,2024/3/20,數(shù)據(jù)挖掘,84,基于實(shí)例的學(xué)習(xí)方法(惰性學(xué)習(xí)法),急切學(xué)習(xí)法惰性學(xué)習(xí)法:存放所有分類樣本,并
35、且直到新的樣本需要分類時(shí)才建立分類典型的應(yīng)用K最近鄰分類法把訓(xùn)練樣本作為歐式空間的點(diǎn)存放局部加權(quán)回歸構(gòu)造局部近似基于案例的推理使用符號(hào)描述和基于知識(shí)的推論,2024/3/20,數(shù)據(jù)挖掘,85,K—最鄰近分類算法,2024/3/20,數(shù)據(jù)挖掘,86,有關(guān)K-NN算法的討論,對(duì)于k最近鄰分類,未知元組指派到它的k個(gè)最近鄰中的多數(shù)類如果屬性是類別屬性,則可以按照一定規(guī)則假定元組的屬性是數(shù)值的如果屬性值缺失,則假定取最大的可能
36、差近鄰數(shù)K的確定采用選取產(chǎn)生最小誤差率的K數(shù)值預(yù)測(cè)是返回未知元組的k個(gè)最近鄰的實(shí)數(shù)值的平均值,2024/3/20,數(shù)據(jù)挖掘,87,基于案例的推理(Case-Based Reasoning),找到一個(gè)好的相似性度量和組合解的合適的方法開發(fā)有效的索引技術(shù),2024/3/20,數(shù)據(jù)挖掘,88,關(guān)于消極和積極學(xué)習(xí)方法的評(píng)價(jià),2024/3/20,數(shù)據(jù)挖掘,89,遺傳算法(Genetic Algorithm),GA:基于類似于生物進(jìn)化的思想
37、每個(gè)規(guī)則可以用一個(gè)二進(jìn)制位串表示創(chuàng)建一個(gè)由隨機(jī)產(chǎn)生的規(guī)則組成的初始群體例如:IF A1 AND NOT A2 THEN C2 可以用’100’表示根據(jù)適者生存的原則,形成由當(dāng)前群體中最合適的規(guī)則組成的新的群體,以及這些規(guī)則的后代規(guī)則的適應(yīng)度用它對(duì)訓(xùn)練樣本集的適應(yīng)度來評(píng)估通過交叉和變異來產(chǎn)生后代,2024/3/20,數(shù)據(jù)挖掘,90,粗糙集方法,2024/3/20,數(shù)據(jù)挖掘,91,模糊集的方法,,2024/3/20,數(shù)據(jù)挖掘,9
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則趙志升
- 《數(shù)據(jù)挖掘?qū)д摗方滩呐涮捉虒W(xué)——第1章-認(rèn)識(shí)數(shù)據(jù)挖掘
- 第5章數(shù)據(jù)挖掘的實(shí)施過程
- 第6章 數(shù)據(jù)中心
- 數(shù)據(jù)挖掘課件第3章關(guān)聯(lián)規(guī)則挖掘理論和算法(new)
- 第6章___access數(shù)據(jù)庫(kù)實(shí)例開發(fā)
- 第9章 電子政務(wù)中的數(shù)據(jù)挖掘技術(shù)
- 第3章 數(shù)據(jù)挖掘的體系結(jié)構(gòu)與模型
- 03.《大數(shù)據(jù)》配套之四第3章-數(shù)據(jù)挖掘算法下
- 數(shù)據(jù)結(jié)構(gòu)習(xí)題解析第6章
- 第6章
- 6數(shù)據(jù)挖掘技術(shù)專題
- 數(shù)據(jù)挖掘6聚類
- 第6章
- 第6章 數(shù)據(jù)庫(kù)的創(chuàng)建與管理
- 第6章 測(cè)量
- 第6章 圖
- 第6章扭轉(zhuǎn)
- 第6章教案
- 第6章 課程
評(píng)論
0/150
提交評(píng)論