不平衡數(shù)據(jù)集分類問題研究.pdf_第1頁
已閱讀1頁,還剩55頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、分類是機器學習領(lǐng)域的重要研究方向之一,經(jīng)過多年發(fā)展形成了一些較為成熟的算法,并在實際中取得成功的應(yīng)用.這些傳統(tǒng)的分類算法以分類正確率作為最大的目標,且假定數(shù)據(jù)集中各類別樣本數(shù)量基本平衡.然而在實際問題中,存在這樣的一類數(shù)據(jù),在數(shù)據(jù)集中某一類的樣本數(shù)量遠遠少于其它類樣本數(shù)量,即數(shù)據(jù)集中不同類別樣本的數(shù)量是非平衡的,這樣的數(shù)據(jù)稱為不平衡數(shù)據(jù).通常,將數(shù)量上占多數(shù)的類稱為多數(shù)類,而占少數(shù)的類稱為少數(shù)類.對不平衡數(shù)據(jù)集分類時,傳統(tǒng)分類算法為追求

2、更高的分類正確率,在分類的過程中偏好數(shù)量上占多數(shù)的多數(shù)類,結(jié)果多數(shù)類的分類正確率較高,而少數(shù)類分類正確率較低.例如,在某些極端情況下,某個傳統(tǒng)的分類算法將所有的樣本都分類為多數(shù)類,依然能獲得較高的整體分類精度,卻不能識別一個少數(shù)類.而在實際問題中,少數(shù)類的分類精度往往更為重要.因此,如何對不平衡數(shù)據(jù)集進行正確分類、提高少數(shù)類的分類精度成為數(shù)據(jù)挖掘領(lǐng)域中的一個研究重點.
  針對不平衡數(shù)據(jù)集的研究集中在三個方面:數(shù)據(jù)層面的方法、算法

3、層面的方法及評價標準.數(shù)據(jù)層面方法即是對數(shù)據(jù)集進行預(yù)處理,采用采樣技術(shù)重構(gòu)數(shù)據(jù)集,以此改變原有的數(shù)據(jù)分布,減少不平衡程度,進而使的數(shù)據(jù)集類分布基本平衡,較常用的方法包括欠采樣、過采樣;算法層面的方法,即改進傳統(tǒng)分類算法,使其在分類過程中更加注重對少數(shù)類的分類,提高少數(shù)類的分類精度,從而適應(yīng)不平衡數(shù)據(jù)集的分類問題,如代價敏感學習、集成學習等;對不平衡數(shù)據(jù)集分類的性能評價標準也是研究的重點之一,常用的標準有F-Measure、G-Mean等

4、.
  本文針對不平衡數(shù)據(jù)集分類問題,嘗試將采樣技術(shù)與傳統(tǒng)分類算法相結(jié)合,提出了四種用于解決不平衡數(shù)據(jù)集分類問題的新方法.主要創(chuàng)新成果有:
  (1)使用遺傳算法中的交叉算子與變異算子生成新的少數(shù)類樣本,采用兩樣本間的歐幾里得距離檢驗新生成少數(shù)類樣本的有效性。在UCI數(shù)據(jù)集的實驗結(jié)果表明,該方法在提高少數(shù)類的分類精度方面取得了較好的效果.
  (2)使用聚類技術(shù)中的K-means算法首先將多數(shù)類樣本聚成多個簇,然后依次

5、從每個簇中抽取一定數(shù)量的多數(shù)類樣本,使所有抽取到的多數(shù)類樣本個數(shù)與少數(shù)類樣本個數(shù)基本相同,最后將多數(shù)類樣本與少數(shù)類樣本合并,作為Bagging成員分類器的訓練數(shù)據(jù).K-means算法的不穩(wěn)定性,可以在一定程度上保證成員分類器之間的差異性。
  (3)使用AdaBoost算法對數(shù)據(jù)集預(yù)處理,得到各樣例權(quán)重.訓練基分類器時,針對多數(shù)類數(shù)據(jù)不再采用bootstrap抽樣方法,而是分別隨機選擇部分權(quán)重較大的樣例與部分權(quán)重較小的樣例,使兩部

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論