基于支持向量機(jī)的代價(jià)敏感數(shù)據(jù)挖掘研究與應(yīng)用.pdf_第1頁
已閱讀1頁,還剩133頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、產(chǎn)生于20世紀(jì)90年代的數(shù)據(jù)挖掘(DataMining,DM)技術(shù)是一種基于海量數(shù)據(jù)獲取知識(shí)的技術(shù)。隨著計(jì)算機(jī)和存儲(chǔ)技術(shù)的快速發(fā)展,人們已經(jīng)積累了大量的歷史數(shù)據(jù),迫切需要把這些歷史數(shù)據(jù)轉(zhuǎn)化為可用的知識(shí),因此DM相關(guān)內(nèi)容已得到廣泛的研究,并有一些成功的應(yīng)用。但當(dāng)面對(duì)的挖掘任務(wù)涉及不同類型的代價(jià)時(shí),大多現(xiàn)有DM算法的直接應(yīng)用不能很好地完成DM任務(wù),需引入代價(jià)敏感數(shù)據(jù)挖掘(CostSensitiveDM,CSDM)。對(duì)于給定的樣本集,常用的D

2、M算法假定每個(gè)樣本的誤分類代價(jià)都相等,以泛化精度為學(xué)習(xí)目標(biāo);而CSDM則是考慮到不同樣本的誤分類代價(jià)不相等,以最小化期望代價(jià)為學(xué)習(xí)目標(biāo)。支持向量機(jī)(SupportVectorMachines,SVM)源于統(tǒng)計(jì)學(xué)習(xí)理論(StatisticalLearningTheory,SLT),是一種強(qiáng)有力的DM算法。不同于神經(jīng)網(wǎng)絡(luò)、決策樹等傳統(tǒng)算法基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(EmpiricalRiskMinimization,ERM)準(zhǔn)則,SVM基于結(jié)構(gòu)風(fēng)險(xiǎn)

3、最小化(StructuralRiskMinimization,SRM)準(zhǔn)則,即同時(shí)考慮經(jīng)驗(yàn)風(fēng)險(xiǎn)和模型復(fù)雜度,因而獲得良好的泛化性能。但和傳統(tǒng)算法一樣,SVM不具有代價(jià)敏感性,不能直接用于CSDM。 針對(duì)CSDM問題,本論文提出一系列基于改進(jìn)SVM的CSDM算法,并進(jìn)行應(yīng)用研究。本論文主要內(nèi)容如下: 1.基于SVM及其啟發(fā),提出并證明了支持向量率(和數(shù))與邊界支持向量率(和數(shù))的界,并把這些界分別擴(kuò)展到正例與反例;提出并證

4、明了正例的支持向量率與邊界支持向量率分別依概率大于反例的支持向量率與邊界支持向量率;證明了正例的分類性能依概率差于反例的分類性能,即證明SVM算法應(yīng)用于不平衡數(shù)據(jù)挖掘時(shí)同傳統(tǒng)基于精度的算法一樣存在“有偏性”。虛擬數(shù)據(jù)集試驗(yàn)和Benchmark數(shù)據(jù)集試驗(yàn)表明了假設(shè)的合理性和結(jié)論的正確性。 2.基于SVM實(shí)現(xiàn)SRM原則的啟發(fā),在SVM中嵌入拒識(shí)代價(jià)和誤分類代價(jià),提出了SVM-RMC分類器的設(shè)計(jì),并基于修改的SMO算法給出了該優(yōu)化問題

5、的求解方法。在SVM-RMC中,決策函數(shù)和拒識(shí)區(qū)域的確定在訓(xùn)練過程中實(shí)現(xiàn)。試驗(yàn)結(jié)果表明:相比于SVM,SVM-RMC減少平均測(cè)試代價(jià),提高分類可靠性。 3.基于SVM,通過引入概率估計(jì)和代價(jià)最小化過程,提出了一個(gè)基于SVM的CSDM算法CS-SVM,在此基礎(chǔ)上提出了一個(gè)通用CSDM算法G-CSC。CS-SVM和G-CSC以誤分類代價(jià)最小作為優(yōu)化目標(biāo),G-CSC中包含的分類算法可以是任意的,只要把分類算法的輸出構(gòu)造成后驗(yàn)概率的形式

6、?;谔摂M和Benchmark數(shù)據(jù)集的試驗(yàn)結(jié)果表明CS-SVM能有效減小平均測(cè)試誤分類代價(jià)。 4.基于K最近鄰(KNN)算法,提出了確定噪音代價(jià)的方法,并將其引入到SVC和SVR算法,進(jìn)而提出了嵌入噪音代價(jià)的代價(jià)敏感SVC(SVC-NC)算法和代價(jià)敏感SVR(SVR-NC)算法?;谔摂M和Benchmark數(shù)據(jù)集的試驗(yàn)結(jié)果表明,SVC-NC和SVR-NC能有效減小訓(xùn)練數(shù)據(jù)中噪音對(duì)聚類和回歸結(jié)果的影響,有更好的泛化能力,預(yù)測(cè)性能優(yōu)

7、于SVC和SVR。 5.基于一定約束條件,提出并證明了SVM和一類基于規(guī)則的FIS具有函數(shù)等效性。在此基礎(chǔ)上,基于SRM準(zhǔn)則設(shè)計(jì)了基于規(guī)則的模糊推理系統(tǒng)MBFIS-SRM,該FIS繼承了SVM良好的泛化能力和對(duì)“維數(shù)災(zāi)難”的避免能力,也繼承了基于規(guī)則的FIS的顯式推理能力。進(jìn)而提出了基于SRM準(zhǔn)則設(shè)計(jì)嵌入誤分類代價(jià)的模糊推理系統(tǒng)MBFIS-SRM-MC。Benchmark數(shù)據(jù)試驗(yàn)表明MBFIS-SRM具有良好的泛化性能,MBFI

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論