基于主動學(xué)習(xí)的非均衡數(shù)據(jù)分類研究.pdf_第1頁
已閱讀1頁,還剩42頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、自古以來,人們不斷積攢著各個不同領(lǐng)域的數(shù)據(jù),而近些年隨著計算機技術(shù)的飛速發(fā)展,數(shù)據(jù)的接收和存儲變得極其簡單快捷,導(dǎo)致海量的數(shù)據(jù)快速積累,如何從這海量數(shù)據(jù)中取得有效信息則成為了現(xiàn)今亟待解決的問題。數(shù)據(jù)挖掘,作為從海量數(shù)據(jù)中獲得有用信息的數(shù)據(jù)分析技術(shù),應(yīng)運而生,此技術(shù)的發(fā)展有效提高了大量閑置數(shù)據(jù)的利用率,對未來發(fā)展具有極高的指導(dǎo)意義。
   分類任務(wù),即確定對象屬于哪一預(yù)定義目標(biāo)類,在數(shù)據(jù)挖掘中是最常見和最重要的技術(shù)。至今,分類技術(shù)

2、的發(fā)展已進入較成熟階段。傳統(tǒng)的分類方法大多數(shù)是基于均衡數(shù)據(jù)集的,即基于數(shù)據(jù)類別分布大致相同,誤分類代價大致相同的數(shù)據(jù)集。而現(xiàn)實的分類問題中存在很多類別非均衡的情況,如信用卡欺詐檢測、醫(yī)療診斷、信息檢索和文本分類等,數(shù)據(jù)集中某個類別的樣本數(shù)可能會遠(yuǎn)多于其他類別。在這些情況下,分類器通常會傾向于將測試樣本全部歸類為多數(shù)類而忽視少數(shù)類樣本,這將導(dǎo)致得到的分類器在少數(shù)類樣本上效果很差。
   非平衡數(shù)據(jù)集自身的特點以及傳統(tǒng)分類算法的局限

3、性是對非均衡數(shù)據(jù)集進行準(zhǔn)確可靠分類的關(guān)鍵制約因素。因此,非均衡數(shù)據(jù)集的分類問題已逐漸成為機器學(xué)習(xí)和模式識別領(lǐng)域中的研究熱點。
   基于非均衡數(shù)據(jù)分類的重要性,本文提出了兩種解決方案:
   1)基于主動學(xué)習(xí)SMOTE的非均衡數(shù)據(jù)分類:少數(shù)類樣本合成過采樣技術(shù)(SMOTE)是一種著名的重采樣方法,但它會帶來噪音等問題,影響分類精度。為解決此問題,本文提出一種基于主動學(xué)習(xí)SMOTE的非均衡數(shù)據(jù)分類方法ALSMOTE。提出的

4、ALSMOTE方法采用基于距離的主動選擇最佳樣本的學(xué)習(xí)策略,并與支持向量機相結(jié)合,改進了SMOTE方法的局限性。實驗結(jié)果表明,該方法有效提高了非均衡數(shù)據(jù)的分類準(zhǔn)確率。
   2)基于集成的非均衡數(shù)據(jù)分類主動學(xué)習(xí)算法:當(dāng)前,處理類別非均衡數(shù)據(jù)采用的主要方法之一就是重采樣,主要包括過取樣和欠取樣,然而過取樣和欠取樣都有自己的不足,本文提出了拆分集成主動學(xué)習(xí)算法SBAL(Split-Boost Active Learning),該算法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論