

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著大數(shù)據(jù)時(shí)代的到來(lái),機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)正面臨著前所未有的機(jī)遇和挑戰(zhàn)。作為機(jī)器學(xué)習(xí)最核心的研究領(lǐng)域之一,分類問(wèn)題受到了研究者持續(xù)而廣泛的關(guān)注,并且出現(xiàn)了大量的經(jīng)典理論、算法模型和應(yīng)用軟件。但是在現(xiàn)實(shí)應(yīng)用領(lǐng)域,獲取到的分類數(shù)據(jù)集經(jīng)常存在類別間樣本數(shù)分布不平衡的情況,造成傳統(tǒng)分類器的分類效果明顯下降,這種情況被稱為類別不平衡問(wèn)題。簡(jiǎn)單而言,類別不平衡就是一個(gè)類中的樣本數(shù)量要明顯少于另一個(gè)(或幾個(gè))類。類別不平衡問(wèn)題在通訊、互聯(lián)網(wǎng)、生態(tài)學(xué)
2、、生物學(xué)、醫(yī)學(xué)等領(lǐng)域廣泛存在,并被列為當(dāng)前數(shù)據(jù)挖掘界最突出問(wèn)題之一。
從學(xué)習(xí)的角度分析,少數(shù)類往往包含更重要的分類信息而且錯(cuò)分少數(shù)類樣本的代價(jià)會(huì)更高。但是由于少數(shù)類樣本不但與一些異常且重要的情況有著密切的關(guān)聯(lián),而且獲取少數(shù)類樣本的成本更高,因此識(shí)別的難度往往會(huì)更大。另一方面,由于大多數(shù)標(biāo)準(zhǔn)的分類算法只考慮訓(xùn)練集為平衡的情況,當(dāng)面臨不平衡數(shù)據(jù)的時(shí)候就可能會(huì)生成不理想的分類器。
近幾年來(lái),由于類不平衡問(wèn)題在許多應(yīng)用場(chǎng)景中
3、經(jīng)常出現(xiàn),不平衡數(shù)據(jù)分類已經(jīng)成為機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘研究群體的關(guān)注熱點(diǎn)。鑒于此,本文基于集成學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的相關(guān)方法,對(duì)不平衡數(shù)據(jù)的分類和特征選擇問(wèn)題展開了研究?,F(xiàn)將本文的主要工作和成果總結(jié)如下:
1)當(dāng)前搜索引擎公司普遍受到垃圾網(wǎng)頁(yè)(web spam)問(wèn)題的困擾,本文針對(duì)不平衡垃圾網(wǎng)頁(yè)數(shù)據(jù)集提出了一種結(jié)合過(guò)采樣方法 SMOTE與隨機(jī)森林的改進(jìn)方法SMOTERF。在WEBSPAM-UK2007數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明,本文方法在
4、分類結(jié)果,尤其是AUC值上有了明顯提升。即使與參數(shù)優(yōu)化后的隨機(jī)森林對(duì)比,其AUC值也有一定提高。本文方法簡(jiǎn)單且泛化能力強(qiáng),可以用于搜索引擎垃圾網(wǎng)頁(yè)檢測(cè)。
2)基于近幾年提出的一個(gè)高效的集成學(xué)習(xí)算法旋轉(zhuǎn)森林,本文提出了三個(gè)改進(jìn)算法,并分別應(yīng)用于不平衡的垃圾網(wǎng)頁(yè)檢測(cè)和高度不平衡數(shù)據(jù)分類的問(wèn)題中。首先,本文先用SMOTE方法平衡垃圾網(wǎng)頁(yè)數(shù)據(jù)集的原始分布,再利用改進(jìn)的嵌套旋轉(zhuǎn)森林算法進(jìn)行分類。實(shí)驗(yàn)結(jié)果證明SMOTE和嵌套旋轉(zhuǎn)森林的結(jié)合
5、方法可以明顯地提高不平衡的垃圾網(wǎng)頁(yè)數(shù)據(jù)集的分類效果。針對(duì)高度不平衡數(shù)據(jù)集的分類問(wèn)題,本文將兩個(gè)經(jīng)典的不平衡預(yù)處理方法隨機(jī)欠采樣和SMOTE過(guò)采樣分別嵌入到旋轉(zhuǎn)森林的特征提取過(guò)程中,生成了兩個(gè)改進(jìn)算法 SROForest和RUROForest。在22個(gè)高度不平衡數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果表明,本文方法對(duì)AUC值的提高較為明顯。非參數(shù)統(tǒng)計(jì)結(jié)果也證明了本文方法,尤其是RUROForest的表現(xiàn)優(yōu)于其他對(duì)比方法。
3)由于在許多現(xiàn)實(shí)數(shù)據(jù)集
6、中,類別分布不平衡和標(biāo)記樣本數(shù)量過(guò)少的情況經(jīng)常同時(shí)存在,因此,本文提出了一系列SMOTE與半監(jiān)督框架下的自標(biāo)記技術(shù)和多分類器模型的結(jié)合方法,來(lái)解決欠標(biāo)記且不平衡的垃圾網(wǎng)頁(yè)數(shù)據(jù)集分類問(wèn)題。在部分標(biāo)記的 WEBSPAM-UK2007數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果表明,本文提出的方法,特別是基于多分類器模型的方法能夠在基本不降低分類精度的前提下,顯著提高spam類的recall值和整體的AUC值,是解決只有少量標(biāo)記且類不平衡數(shù)據(jù)集分類問(wèn)題的一個(gè)有效策
7、略。
4)針對(duì)利用高維不平衡的卵巢癌微陣列數(shù)據(jù)進(jìn)行診斷及生存預(yù)測(cè)的問(wèn)題,本文提出了一個(gè)基于隨機(jī)森林的過(guò)濾式不平衡特征選擇算法IFSRF。該算法選用AUC值作為特征選擇時(shí)的評(píng)價(jià)指標(biāo),因此可以顯著降低類分布不平衡給分類系統(tǒng)帶來(lái)的負(fù)面影響。實(shí)驗(yàn)結(jié)果表明 IFSRF能夠明顯提高所有分類器特別是隨機(jī)森林在卵巢癌診斷、生存預(yù)測(cè)和復(fù)發(fā)預(yù)測(cè)3個(gè)不平衡數(shù)據(jù)集上的AUC值,同時(shí)還能保證整體分類精度略有提高。本文方法實(shí)現(xiàn)簡(jiǎn)單且魯棒性強(qiáng),可以廣泛用于
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 半監(jiān)督不平衡數(shù)據(jù)的分類.pdf
- 面向不平衡數(shù)據(jù)的特征選擇與半監(jiān)督分類算法研究.pdf
- 基于多分類器集成及半監(jiān)督學(xué)習(xí)的不平衡數(shù)據(jù)分類研究.pdf
- 基于集成學(xué)習(xí)的不平衡數(shù)據(jù)分類.pdf
- 基于半監(jiān)督學(xué)習(xí)的不平衡數(shù)據(jù)分類算法與應(yīng)用.pdf
- 半監(jiān)督學(xué)習(xí)中不平衡數(shù)據(jù)集分類研究.pdf
- 基于集成學(xué)習(xí)的不平衡數(shù)據(jù)分類的研究及應(yīng)用.pdf
- 針對(duì)類別不平衡和代價(jià)敏感分類問(wèn)題的特征選擇和分類算法.pdf
- 類別不平衡數(shù)據(jù)的集成學(xué)習(xí)研究.pdf
- 不平衡數(shù)據(jù)分類和極限學(xué)習(xí)機(jī)算法研究.pdf
- 數(shù)據(jù)挖掘不平衡分類中的特征選擇技術(shù)研究.pdf
- 類別不平衡數(shù)據(jù)的集成分類研究.pdf
- 基于不平衡數(shù)據(jù)的分類方法研究.pdf
- 不平衡數(shù)據(jù)分類問(wèn)題研究.pdf
- 基于不平衡數(shù)據(jù)的情感分類方法研究.pdf
- 數(shù)據(jù)不平衡分類問(wèn)題研究.pdf
- 不平衡數(shù)據(jù)集分類問(wèn)題研究.pdf
- 基于關(guān)聯(lián)規(guī)則的不平衡數(shù)據(jù)分類方法研究.pdf
- 基于不平衡數(shù)據(jù)集的數(shù)據(jù)挖掘分類算法研究.pdf
- 不平衡數(shù)據(jù)集分類算法的研究.pdf
評(píng)論
0/150
提交評(píng)論