2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩94頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、2024/3/20,數(shù)據(jù)挖掘,1,第六章 分類,什么是分類?什么是預(yù)測?關(guān)于分類和預(yù)測的問題用決策樹歸納分類貝葉斯分類基于規(guī)則的分類模式評估與選擇提高分類準(zhǔn)確率技術(shù)用后向傳播分類支持向量機(jī)惰性學(xué)習(xí)法其他分類方法基于分類的其他問題,2024/3/20,數(shù)據(jù)挖掘,2,分類和預(yù)測,2024/3/20,數(shù)據(jù)挖掘,3,分類—一個兩步的過程,過擬合:在學(xué)習(xí)期間,可能包含了訓(xùn)練數(shù)據(jù)中的某些特定的異常,這些異常不在一般數(shù)據(jù)集中出現(xiàn)

2、,2024/3/20,數(shù)據(jù)挖掘,4,分類過程(1):建立模型,2024/3/20,數(shù)據(jù)挖掘,5,分類過程(2):使用模型進(jìn)行分類,數(shù)據(jù)預(yù)測,也是一個兩步過程要預(yù)測的屬性值是一個連續(xù)值,而不是類標(biāo)號預(yù)測器是一個映射或函數(shù)y=f(x),其中X是輸入,而輸出y是連續(xù)的或有序的值,2024/3/20,數(shù)據(jù)挖掘,6,2024/3/20,數(shù)據(jù)挖掘,7,有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),關(guān)于分類和預(yù)測的問題,2024/3/20,數(shù)據(jù)挖掘,8,數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)

3、清理數(shù)據(jù)清理是為了減少噪聲和處理缺失值相關(guān)性分析(特征選擇)刪除不相關(guān)屬性和冗余屬性數(shù)據(jù)變換概化和規(guī)格化,2024/3/20,數(shù)據(jù)挖掘,9,評估分類模型,預(yù)測的準(zhǔn)確率速率建立的時間使用模型的時間魯棒性(健壯性)處理噪聲和缺失值的能力可擴(kuò)展性(可伸縮性)磁盤常駐數(shù)據(jù)庫的效率,2024/3/20,數(shù)據(jù)挖掘,10,可解釋性被模型證實的理解力和洞察力規(guī)則的優(yōu)越性決策樹的大小分類規(guī)則的簡潔性,2024/3/20

4、,數(shù)據(jù)挖掘,11,用決策樹歸納分類,決策樹一個類似于流程圖的樹狀結(jié)構(gòu)內(nèi)部節(jié)點表示一個屬性上的測試每個分支代表一個測試的輸出葉節(jié)點代表類或類分布決策樹的生成包括兩個過程樹的建構(gòu)首先所有的訓(xùn)練樣本都在根節(jié)點基于所選的屬性循環(huán)地劃分樣本樹剪枝識別和刪除那些反映噪聲或孤立點的分支,2024/3/20,數(shù)據(jù)挖掘,12,決策樹的使用:為一個未知的樣本分類給定一個類標(biāo)號未知的元組X,在決策樹上測試元組的屬性值,跟蹤一條由根到葉節(jié)

5、點的路徑,該葉節(jié)點就存放著該元組的類預(yù)測,2024/3/20,數(shù)據(jù)挖掘,13,訓(xùn)練數(shù)據(jù)集,2024/3/20,數(shù)據(jù)挖掘,14,概念“buys_computer”的決策樹的輸出,決策樹歸納的算法,基本算法(貪心算法)自頂向下遞歸的分治的方式構(gòu)造判定樹根節(jié)點擁有所有訓(xùn)練樣本根據(jù)所選屬性將樣本劃分為不同子集在各個子集上遞歸地選擇屬性并劃分停止劃分的條件當(dāng)前子集所有樣本屬于同一個類沒有剩余屬性可以用來劃分(多數(shù)表決)沒有剩余樣本

6、可劃分,2024/3/20,數(shù)據(jù)挖掘,15,2024/3/20,數(shù)據(jù)挖掘,16,屬性選擇度量,2024/3/20,數(shù)據(jù)挖掘,17,信息增益(ID3/C4.5),,2024/3/20,數(shù)據(jù)挖掘,18,決策樹歸納的信息增益,,信息增益,2024/3/20,數(shù)據(jù)挖掘,19,用信息增益計算進(jìn)行屬性選擇,0.694,ID3算法存在的缺點,ID3算法在選擇根結(jié)點和各內(nèi)部結(jié)點中的分枝屬性時,使用信息增益作為評價標(biāo)準(zhǔn),傾向于選擇取值較多的屬性,在有些情

7、況下這類屬性不會提供太多有價值的信息,2024/3/20,數(shù)據(jù)挖掘,20,2024/3/20,數(shù)據(jù)挖掘,21,決策樹算法C4.5,分裂信息增益率,選取具有最大增益率的屬性作為分裂屬性,2024/3/20,數(shù)據(jù)挖掘,22,Gini Index (IBM IntelligentMiner),計算訓(xùn)練集T的不純度,2024/3/20,數(shù)據(jù)挖掘,23,幾種經(jīng)典算法介紹,CART采用一種二分遞歸分割,將當(dāng)前的樣本集分為兩個子樣本集對at

8、tributelist中屬性執(zhí)行該屬性上的一個劃分,計算此劃分的GINI系數(shù) 選取最小GINI系數(shù)的屬性   CHAID在Overfitting前停止樹的生成只能處理類別性屬性,連續(xù)型的輸入變量首先要進(jìn)行離散處理 選擇分割。利用統(tǒng)計卡方檢驗的屬性度量方法,基于最小描述長度原理的屬性選擇度量(MDL)對于一組給定的實例數(shù)據(jù) D , 如果要對其進(jìn)行保存 ,為了節(jié)省存儲空間, 一 般采用某種模型對其進(jìn)行編碼壓

9、縮,然后再保存壓縮后的數(shù)據(jù)。同時, 為了以后正確恢復(fù)這些實例數(shù)據(jù), 將所用的模型也保存起來。所以需要保存的數(shù)據(jù)長度( 比特數(shù)) 等于這些實例數(shù)據(jù)進(jìn)行編碼壓縮后的長度加上保存模型所需的數(shù)據(jù)長度, 將該數(shù)據(jù)長度稱為總描述長度。選擇總描述長度最小的模型最佳決策樹定義為需要最少二進(jìn)制位的樹,2024/3/20,數(shù)據(jù)挖掘,24,2024/3/20,數(shù)據(jù)挖掘,25,避免分類的過分適應(yīng),孤立點,,Cart使用代價復(fù)雜度剪枝算法:樹的復(fù)雜度函數(shù):

10、樹中樹葉節(jié)點的個數(shù)和樹的錯誤率構(gòu)成的函數(shù)(樹誤分類的元組所占的百分比)代價復(fù)雜度的評估采用標(biāo)記類元組的剪枝集C4.5使用一種悲觀剪枝法類似于CART算法,使用錯誤率評估的代價復(fù)雜度函數(shù)使用訓(xùn)練集數(shù)據(jù)評估代價復(fù)雜度,得到的錯誤率值要使用一個調(diào)節(jié)因子重復(fù)和復(fù)制現(xiàn)象,2024/3/20,數(shù)據(jù)挖掘,26,2024/3/20,數(shù)據(jù)挖掘,27,大型數(shù)據(jù)庫中的分類,2024/3/20,數(shù)據(jù)挖掘,28,數(shù)據(jù)挖掘?qū)W習(xí)中可伸縮決策樹歸納方法,20

11、24/3/20,數(shù)據(jù)挖掘,29,為什么要進(jìn)行貝葉斯分類,2024/3/20,數(shù)據(jù)挖掘,30,引例,參加晚會后,第二天早晨呼吸中有酒精味的可能性有多大?如果頭疼,患腦瘤的概率有多大?如果參加了晚會,并且頭疼,那么患腦瘤的概率有多大?,,Party,,Hangover,,Brain Tumor,,Headache,,Smell Alcohol,,Pos Xray,,,,,,2024/3/20,數(shù)據(jù)挖掘,31,貝葉斯概率基礎(chǔ),先驗概率:根

12、據(jù)歷史的資料或主觀判斷所確定的各種事件發(fā)生的概率:P(H), P(H)獨立于X后驗概率:通過貝葉斯公式,結(jié)合調(diào)查等方式獲取了新的附加信息,對先驗概率修正后得到的更符合實際的概率:P(H|X)條件概率:當(dāng)條件確定時,某事件發(fā)生的概率就是該事件的條件概率:P(X|H),2024/3/20,數(shù)據(jù)挖掘,32,貝葉斯定理(貝葉斯公式),已知P(X)、P(H)和P(X|H)計算P(H|X),2024/3/20,數(shù)據(jù)挖掘,33,貝葉斯分類,使用后

13、驗概率可以形式化分類問題P(Ci|X)=樣本元組的概率X=屬于類CiE.g. P( class=N | outlook=sunny, windy=true,…)思想:把樣本X分派給類Ci以至于P(Ci|X)最大根據(jù)貝葉斯定理: P(Ci|X)= P(X|Ci)·P(Ci)/P(X)對于所有類而言P(X)為常數(shù)P(Ci)=|Ci,D|/|D|只要最大化P(X|Ci)·P(Ci),2024/3/20,數(shù)據(jù)

14、挖掘,34,樸素貝葉斯分類,給定具有許多屬性的數(shù)據(jù)集,計算P(X|Ci)的開銷很大,為降低計算量,給定了類條件獨立的樸素假定,其中Xk表示元組X屬性Ak的值如果Ak是分類屬性,則P(Xk|Ci)是D中屬性Ak的值為Xk的Ci類的元組數(shù)除以D中Ci類的元組數(shù)|Ci,D|如果Ak是連續(xù)值屬性,假定連續(xù)值屬性服從均值為?、標(biāo)準(zhǔn)差為?的高斯分布, 分別是Ci類訓(xùn)練元組屬性Ak的值的均值和標(biāo)準(zhǔn)差,,2024/3/20,數(shù)

15、據(jù)挖掘,35,樸素貝葉斯分類,為了預(yù)測X的類標(biāo)號,對每個類Ci計算P(X|Ci)·P(Ci),則預(yù)測元組X類標(biāo)號為Ci,當(dāng)且僅當(dāng) P(X|Ci)·P(Ci)> P(X|Cj)·P(Cj) 其中1≤j ≤m, j≠I貝葉斯分類的缺點:使用的假設(shè)(類條件獨立性)的不正確性缺乏可用的概率數(shù)據(jù),2024/3/20,數(shù)據(jù)挖掘

16、,36,樸素貝葉斯分類實例,2024/3/20,數(shù)據(jù)挖掘,37,2024/3/20,數(shù)據(jù)挖掘,38,拉普拉斯校準(zhǔn),如果得到了某個P(Xk|Ci)的零概率值,可以采用拉普拉斯校準(zhǔn),即為每個值對增加一個元組。,1,1,1,1,2024/3/20,數(shù)據(jù)挖掘,39,由決策樹提取分類規(guī)則,,規(guī)則R可以用它的覆蓋率和準(zhǔn)確率來評估給定類標(biāo)記的數(shù)據(jù)集D中的一個元組X,設(shè) 為規(guī)則R覆蓋的元組數(shù), 為R正確分類的元組數(shù),

17、 是D中元組數(shù)覆蓋率公式準(zhǔn)確率公式,2024/3/20,數(shù)據(jù)挖掘,40,2024/3/20,數(shù)據(jù)挖掘,41,基本決策樹歸納的加強(qiáng),允許屬性具有連續(xù)值通過把連續(xù)屬性值劃分為離散的區(qū)間集來動態(tài)定義新的離散值屬性處理缺省屬性值賦予屬性最常見的值屬性構(gòu)造基于存在的稀疏表示的屬性創(chuàng)建新的屬性這將減少碎片、重復(fù)和復(fù)制問題,分類的評價準(zhǔn)則,給定測試集Xtest={(xi,yi)|i=1,2,…,N}N表示測試集中的樣本個數(shù)xi

18、表示測試集中的數(shù)據(jù)樣本yi表示數(shù)據(jù)樣本xi的類標(biāo)號對于測試集的第j個類別,假設(shè)被正確分類的樣本數(shù)量為TPj被錯誤分類的樣本數(shù)量為FNj其他類別被錯誤分類為該類的樣本數(shù)據(jù)量為FPj,2024/3/20,數(shù)據(jù)挖掘,42,,精確度:代表測試集中被正確分類的數(shù)據(jù)樣本所占的比例,2024/3/20,數(shù)據(jù)挖掘,43,,查全率:表示在本類樣本中被正確分類的樣本所占的比例 查準(zhǔn)率:表示被分類為該類的樣本中,真正屬于該類的樣本所占的比例,

19、2024/3/20,數(shù)據(jù)挖掘,44,,F-measure:是查全率和查準(zhǔn)率的組合表達(dá)式 β是可以調(diào)節(jié)的,通常取值為1,2024/3/20,數(shù)據(jù)挖掘,45,,幾何均值 :是各個類別的查全率的平方根,2024/3/20,數(shù)據(jù)挖掘,46,其他比較分類器的指標(biāo),速度魯棒性可伸縮性可解釋性當(dāng)數(shù)據(jù)類比較均衡分布時,準(zhǔn)確率效果較好,其他度量如精確度、召回率、F-measure等更適合于類不平衡問題,2024/3/20,數(shù)據(jù)挖掘,47

20、,2024/3/20,數(shù)據(jù)挖掘,48,分類法的準(zhǔn)確性:評估方法,保持法以及隨機(jī)二次抽樣,2024/3/20,數(shù)據(jù)挖掘,49,裝袋和提升:提高分類準(zhǔn)確率的方法,這兩種技術(shù)都能夠提高分類器和預(yù)測器的準(zhǔn)確率將k個學(xué)習(xí)得到的模型系列M1,M2,…Mk組合起來,旨在創(chuàng)建一個改進(jìn)的復(fù)合模型M*,2024/3/20,數(shù)據(jù)挖掘,50,裝袋算法,采用有放回抽樣從原始元組集D中抽樣進(jìn)行k次迭代,由每個訓(xùn)練集Di學(xué)習(xí),得到一個分類模型Mi每個分類器返回

21、它的類預(yù)測,將得票最多的類賦予未知樣本通過取給定檢驗元組的每個預(yù)測平均值,裝袋也可以用于連續(xù)值的預(yù)測,2024/3/20,數(shù)據(jù)挖掘,51,提升技術(shù)--算法,初始對給定數(shù)據(jù)集D,為每個樣本賦予相等的權(quán)重1/d按照樣本的權(quán)重從D中進(jìn)行有放回的抽樣,產(chǎn)生分類器每次迭代產(chǎn)生分類器后,重新根據(jù)分類器的錯誤率調(diào)整樣本的權(quán)重最終提升的分類器M*組合每個個體分類器,其中每個分類器投票的權(quán)重是其準(zhǔn)確率的函數(shù),2024/3/20,數(shù)據(jù)挖掘,52,有

22、關(guān)獨立假設(shè),獨立假設(shè)使得計算成為可能當(dāng)獨立假設(shè)滿足時使用最優(yōu)分類器但是實踐中很少滿足,因為屬性通常是相關(guān)的試著克服這類限制貝葉斯網(wǎng)絡(luò):聯(lián)合屬性的貝葉斯推理和因果關(guān)系決策樹:在一個時刻只推理一個屬性,首先考慮最重要的屬性貝葉斯網(wǎng)絡(luò)由兩個部分組成:有向無環(huán)圖和條件概率表,貝葉斯網(wǎng)絡(luò)的主要功能,貝葉斯網(wǎng)絡(luò)預(yù)測:已知一定的原因,利用貝葉斯網(wǎng)絡(luò)的推理計算,求出由原因?qū)е碌慕Y(jié)果發(fā)生的概率貝葉斯網(wǎng)絡(luò)診斷:已知發(fā)生了某些結(jié)果,根據(jù)貝葉斯網(wǎng)

23、絡(luò)推理計算造成該結(jié)果發(fā)生的原因和發(fā)生的概率貝葉斯網(wǎng)絡(luò)學(xué)習(xí):用現(xiàn)有數(shù)據(jù)對先驗知識的修正,能夠持續(xù)學(xué)習(xí),上次學(xué)習(xí)得到的后驗貝葉斯網(wǎng)絡(luò)變成下一次學(xué)習(xí)的先驗貝葉斯網(wǎng)絡(luò),每一次學(xué)習(xí)前用戶都可以對先驗貝葉斯網(wǎng)絡(luò)進(jìn)行調(diào)整,使其更能體現(xiàn)數(shù)據(jù)中蘊(yùn)含的知識,2024/3/20,數(shù)據(jù)挖掘,53,2024/3/20,數(shù)據(jù)挖掘,54,貝葉斯信念網(wǎng)絡(luò)(1),,Party,,Hangover,,Brain Tumor,,Headache,,Smell Alcoho

24、l,,Pos Xray,,,,,,全概率公式,設(shè)A,B是兩個事件,那么A可以表示為顯然 如果P(B)>0,則設(shè)實驗E為樣本空間,A為E的事件,B1,B2…Bn為一個分割,且P(Bi)>0,則,2024/3/20,數(shù)據(jù)挖掘,57,概率和條件概率數(shù)據(jù),左表給出了事件發(fā)生的概率:PT發(fā)生的概率是0.2,不發(fā)生的概率是0.8右表給出了事件發(fā)生的條件概率:PT發(fā)生時,HO發(fā)生的概率是

25、0.7,,,已知節(jié)點PT時HO的條件概率,已知節(jié)點HO時SA的條件概率,已知節(jié)點BT時PX的條件概率,已知HO和BT時HA的條件概率,計算結(jié)點HA的概率:不知道任何結(jié)點發(fā)生與否的信息,結(jié)點的預(yù)測,根據(jù)全概率公式:,一個原因結(jié)點明確情況下的預(yù)測,計算已知參加晚會的情況下,頭疼發(fā)生的概率,2024/3/20,數(shù)據(jù)挖掘,62,訓(xùn)練貝葉斯信念網(wǎng)絡(luò),如果網(wǎng)絡(luò)拓?fù)湟阎⑶易兞渴强捎^測的,則訓(xùn)練網(wǎng)絡(luò)是直接的。該過程由計算CPT項組成,與樸素貝葉斯分類

26、涉及的概率計算類似當(dāng)網(wǎng)絡(luò)拓?fù)浣o定,而某些變量是隱藏的時,可以選擇不同的方法來訓(xùn)練信念網(wǎng)絡(luò),梯度下降策略經(jīng)常使用計算CPT項如果網(wǎng)絡(luò)結(jié)構(gòu)是未知的,離散優(yōu)化技術(shù)被用于從已知的變量中產(chǎn)生網(wǎng)絡(luò)結(jié)構(gòu),這也是一個研究課題,2024/3/20,數(shù)據(jù)挖掘,63,什么是神經(jīng)網(wǎng)絡(luò),也稱為人工神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)的基本組成成分:神經(jīng)元和與連接有關(guān)的權(quán)重,,,,,2024/3/20,數(shù)據(jù)挖掘,64,神經(jīng)網(wǎng)絡(luò),2024/3/20,數(shù)據(jù)挖掘,65,定義網(wǎng)絡(luò)拓

27、撲結(jié)構(gòu),,說明輸入層的單元數(shù)、隱藏層數(shù)、每個隱藏層的單元數(shù)和輸出層的單元數(shù)每個屬性的輸入測量值要規(guī)范化輸出層的單元數(shù)可以由類別數(shù)決定隱藏層單元數(shù)和權(quán)值沒有明確規(guī)定,可以通過交叉驗證技術(shù)估計,2024/3/20,數(shù)據(jù)挖掘,66,2024/3/20,數(shù)據(jù)挖掘,67,多層前饋神經(jīng)網(wǎng)絡(luò),前饋神經(jīng)網(wǎng)絡(luò)(feedforward neural network):是指每個神經(jīng)元僅與下一層神經(jīng)元相連的神經(jīng)網(wǎng)絡(luò),人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用,2024/3/2

28、0,數(shù)據(jù)挖掘,68,,2024/3/20,數(shù)據(jù)挖掘,69,2024/3/20,數(shù)據(jù)挖掘,70,后向傳播(1),2024/3/20,數(shù)據(jù)挖掘,71,后向傳播(2),由前一層的輸出作為輸入i,與對應(yīng)的權(quán)w相乘形成加權(quán)和,再加上偏置對上面結(jié)果用一個非線性函數(shù)f作用形成本層的輸出.將較大的值映射到0-1之間,Logistic函數(shù),2024/3/20,數(shù)據(jù)挖掘,72,后向傳播(3),Output nodes,Input nodes,Hid

29、den nodes,Output vector,Input vector: xi,wij,,2024/3/20,數(shù)據(jù)挖掘,73,計算實例,2024/3/20,數(shù)據(jù)挖掘,74,,一個訓(xùn)練樣本X={1,0,1},輸出為1X1=1,x2=0,x3=1,w14=0.2,w15=-0.3,w24=0.4,w25=0.1,w34=-0.5,w35=0.2,w46=-0.3,w56=-0.2,偏置值:節(jié)點4:-0.4,節(jié)點5:0.2,節(jié)點6:0.

30、1學(xué)習(xí)率設(shè)為0.9,2024/3/20,數(shù)據(jù)挖掘,75,節(jié)點4:輸入值:w14*x1+w24*x2+w34*x3+節(jié)點4的偏置=1*0.2+0.4*0-0.5*1-0.4=-0.7輸出值:用公式可得0.332同理:節(jié)點5輸入值0.1,輸出值0.525節(jié)點6:輸入值:w46*o4+w56*o5+節(jié)點6的偏置=-0.3*0.332-0.2*0.525+0.1=-0.105輸出值:0.474,2024/3/20,數(shù)據(jù)

31、挖掘,76,誤差計算,節(jié)點6:0.474*(1-0.474)*(1-0.474)=0.1311節(jié)點5:0.525*(1-0.525)*0.1311*(-0.2)=-0.0065同理節(jié)點4誤差為:-0.0087,給定訓(xùn)練元組的已知目標(biāo)值,2024/3/20,數(shù)據(jù)挖掘,77,更新權(quán)值和偏置值,W46:-0.3+(0.9)(0.1311)(0.332)=-0.261其他Wij同理節(jié)點6的偏置:0.1+(0.9)*(

32、0.1311)=0.218其他偏置同理,2024/3/20,數(shù)據(jù)挖掘,78,終止條件,收斂條件:前一周期所有的△Wij都小于某個指定閾值前一周期誤分類的元組百分比小于某個閾值超過預(yù)先制定的周期數(shù)可以采用改進(jìn)的模擬退火方法提高收斂速度,2024/3/20,數(shù)據(jù)挖掘,79,什么是支持向量機(jī),該算法使用一種非線性映射,將原訓(xùn)練數(shù)據(jù)映射到較高的維,在新維上,它搜索線性最佳分離超平面,成為將一類元組與其他類分離的決策邊界支持向量(基本

33、訓(xùn)練元組)和邊緣一種線性和非線性數(shù)據(jù)的有前途的新分類方法不容易過分?jǐn)M合,總是發(fā)現(xiàn)全局解對復(fù)雜非線性決策邊界的建模能力高度準(zhǔn)確,2024/3/20,數(shù)據(jù)挖掘,80,線性超平面,2024/3/20,數(shù)據(jù)挖掘,81,邊緣,落在超平面上的訓(xùn)練元組稱為支持向量類之間的最小寬度稱為邊緣,2024/3/20,數(shù)據(jù)挖掘,82,基于頻繁模式的分類,基于關(guān)聯(lián)分類的幾種方法CBA:使用頻繁項集挖掘的迭代方法伸縮性和準(zhǔn)確性都比C4.5要好CMA

34、R:采用FP增長算法的變形來發(fā)現(xiàn)滿足最小支持度和最小置信度閾值的規(guī)則比CBA的平均準(zhǔn)確率稍高,其運(yùn)行時間、可伸縮性和內(nèi)存使用都更有效CPAR:使用覆蓋算法的規(guī)則歸納方法產(chǎn)生規(guī)則較少,對于大型訓(xùn)練數(shù)據(jù)集,更有效,2024/3/20,數(shù)據(jù)挖掘,83,其他的分類方法,K—最鄰近分類基于案例的推理遺傳算法粗糙集模糊集,2024/3/20,數(shù)據(jù)挖掘,84,基于實例的學(xué)習(xí)方法(惰性學(xué)習(xí)法),急切學(xué)習(xí)法惰性學(xué)習(xí)法:存放所有分類樣本,并

35、且直到新的樣本需要分類時才建立分類典型的應(yīng)用K最近鄰分類法把訓(xùn)練樣本作為歐式空間的點存放局部加權(quán)回歸構(gòu)造局部近似基于案例的推理使用符號描述和基于知識的推論,2024/3/20,數(shù)據(jù)挖掘,85,K—最鄰近分類算法,2024/3/20,數(shù)據(jù)挖掘,86,有關(guān)K-NN算法的討論,對于k最近鄰分類,未知元組指派到它的k個最近鄰中的多數(shù)類如果屬性是類別屬性,則可以按照一定規(guī)則假定元組的屬性是數(shù)值的如果屬性值缺失,則假定取最大的可能

36、差近鄰數(shù)K的確定采用選取產(chǎn)生最小誤差率的K數(shù)值預(yù)測是返回未知元組的k個最近鄰的實數(shù)值的平均值,2024/3/20,數(shù)據(jù)挖掘,87,基于案例的推理(Case-Based Reasoning),找到一個好的相似性度量和組合解的合適的方法開發(fā)有效的索引技術(shù),2024/3/20,數(shù)據(jù)挖掘,88,關(guān)于消極和積極學(xué)習(xí)方法的評價,2024/3/20,數(shù)據(jù)挖掘,89,遺傳算法(Genetic Algorithm),GA:基于類似于生物進(jìn)化的思想

37、每個規(guī)則可以用一個二進(jìn)制位串表示創(chuàng)建一個由隨機(jī)產(chǎn)生的規(guī)則組成的初始群體例如:IF A1 AND NOT A2 THEN C2 可以用’100’表示根據(jù)適者生存的原則,形成由當(dāng)前群體中最合適的規(guī)則組成的新的群體,以及這些規(guī)則的后代規(guī)則的適應(yīng)度用它對訓(xùn)練樣本集的適應(yīng)度來評估通過交叉和變異來產(chǎn)生后代,2024/3/20,數(shù)據(jù)挖掘,90,粗糙集方法,2024/3/20,數(shù)據(jù)挖掘,91,模糊集的方法,,2024/3/20,數(shù)據(jù)挖掘,9

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論