版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、現(xiàn)在每天都有大量數(shù)據(jù)需要提取和分析,數(shù)據(jù)挖掘技術(shù)在許多實(shí)際應(yīng)用中獲得巨大成功,分類模型已經(jīng)在許多應(yīng)用場(chǎng)合得到廣泛應(yīng)用,如原油泄漏檢測(cè)、信用卡檢測(cè)、醫(yī)療檢測(cè)等等。由于這個(gè)課題的重要性,許多研究者開展了許多卓有成效的工作。
本論文的研究總體目標(biāo)是探討一種分類方法用于提高非平衡數(shù)據(jù)集結(jié)構(gòu)的分類器的準(zhǔn)確率。非平衡數(shù)據(jù)集指的是某一類別的樣本數(shù)多于其他類別的樣本數(shù)。傳統(tǒng)機(jī)器學(xué)習(xí)對(duì)這些類型的數(shù)據(jù)比較敏感,往往傾向于重視占主導(dǎo)地位的高頻樣
2、本而忽視低頻樣本。為極少類樣本的數(shù)據(jù)集生成的模型僅得到對(duì)這些類別樣本較低的分類準(zhǔn)確率。然而,在許多情形下,這個(gè)類別可能是人們最感興趣的。
例如:信用卡詐騙的誤判可能導(dǎo)致銀行聲譽(yù)的毀滅,業(yè)務(wù)的流失以及客戶的不滿意。然而,一個(gè)欺詐交易的錯(cuò)誤分類往往只需要一個(gè)呼叫客戶端。同樣,在原油泄漏檢測(cè)中,一個(gè)未被發(fā)現(xiàn)的裂口將導(dǎo)致幾千美元的損失。訓(xùn)練數(shù)據(jù)集的分類的改變,可以改變多數(shù)類和少數(shù)類的錯(cuò)誤分布。這個(gè)非平衡問題是一個(gè)相對(duì)問題,依賴于:
3、類的不平衡度,數(shù)據(jù)所表示的復(fù)雜性以及集合和類的總體規(guī)模。為了處理這個(gè)問題,已經(jīng)提出了許多方法。這些方法被分為數(shù)據(jù)層和分析層。
數(shù)據(jù)層對(duì)少數(shù)類進(jìn)行處理,最常見的方法是過采樣和欠采樣。欠采樣將導(dǎo)致少數(shù)類的信息的丟失,而且是在進(jìn)行分類時(shí)不允許刪除一些樣本。隨機(jī)的過采樣使研究者選擇的范圍更小更專業(yè),因此可能過度擬合。
對(duì)于可選擇的過采樣,Chawla et al提出一種叫做Smote的方法來合成少數(shù)類的樣本。Smot
4、e的優(yōu)點(diǎn)在于它使研究者的選擇范圍更小更專業(yè)。Chawla et al提出了一種更先進(jìn)的SmoteBoost方法,給出一系列的迭代T環(huán),每一個(gè)迭代T環(huán),Dt是時(shí)時(shí)更新的。因此少數(shù)類的過采樣樣本是通過合成少數(shù)類的樣本得到的。Datalboost-IM是由Guo和Viktor提出的Adaboost.M2的修改版,它鑒別原有的本并為多數(shù)類和少數(shù)類合成樣本。
算法層面上的這些方法操縱的是算法,而不是數(shù)據(jù)集。最常見的集成算法是Bagg
5、ing算法和Adaboost算法,它們提高了分類性能,它們是綜合了其它方法的例子,對(duì)模型進(jìn)行整合的方法,Bagging是由Leo Breiman在1994年提出的,通過將隨機(jī)生成的訓(xùn)練數(shù)據(jù)集的分類整合起來Boosting是訓(xùn)練“弱”學(xué)習(xí)者的一種機(jī)制,通過綜合由“弱”學(xué)習(xí)者的假設(shè)得到總體假設(shè),它有很高的正確率。Adaboost是由Freund和Schapire提高了隨機(jī)分類樣本的權(quán)重,降低了均衡分類的比例,在不考慮非平衡數(shù)據(jù)集的情況下,傳
6、統(tǒng)的Boosting方法不能很好的適用于少數(shù)類的情況。
根據(jù)Sun et al的成本敏感分類方法,考慮到不同類型的分類會(huì)需要不同的成本。一個(gè)分類的成本矩陣編碼反映了這個(gè)分類方法的好壞。為了處理非平衡數(shù)據(jù)集問題,正面樣本的識(shí)別重要性比負(fù)面的要高。因此,非平衡分類中,正面樣本的成本要比負(fù)面樣本的成本更加重要。
為了處理這個(gè)問題,文中提出一種集成算法,該算法建立了包含所有少數(shù)類和欠采樣多數(shù)類的新平衡訓(xùn)練集。在每輪迭
7、代中,算法確認(rèn)在多數(shù)類上的原來樣本并為下一次迭代生成合成樣本。實(shí)驗(yàn)中為每個(gè)訓(xùn)練集設(shè)置弱學(xué)習(xí)器作為基分類器。最后的預(yù)測(cè)結(jié)果通過多數(shù)投票方法獲得。
E-AdSampling適合用來處理不平衡數(shù)據(jù)集,因?yàn)?首先,平衡每一個(gè)要訓(xùn)練的數(shù)據(jù),然后,處理多數(shù)類的欠采樣的信息丟失,通過尋找原有的樣本并且為這些樣本創(chuàng)建新的合成樣本,最后,通過匯總所有的分類,創(chuàng)建一種集成算法。
E-AdSampling是從UCI數(shù)據(jù)集中選取六個(gè)
8、數(shù)據(jù)集進(jìn)行評(píng)測(cè)的,并分別與其他已知算法進(jìn)行了比較,評(píng)價(jià)指標(biāo)有F度量、G平均值、總體準(zhǔn)確率、AUC等。
和一種傳統(tǒng)的機(jī)器學(xué)習(xí)算法相比,我們介紹兩種合成算法和兩種成本敏感算法。
Weka.3.6.0中的C4.5樹被用來作基分類器,AdatabostM1,Bagging,Adacost,CSB2,和E-AdSampling分別集成了10種迭代法。除了Adult和Monk2,它們不但提供測(cè)試數(shù)據(jù)集,而且運(yùn)用10倍的交
9、叉驗(yàn)證。
在衡量TP率方面,對(duì)比無成本損失算法,E-AdSampling算法在少數(shù)類預(yù)測(cè)中減少了錯(cuò)誤。例如Hepatitis數(shù)據(jù)集,C4.5和E-AdSampling的差別表明,13個(gè)錯(cuò)誤的歸類(歸類于少數(shù)類)是錯(cuò)誤的,它們不能歸類于少數(shù)類。
根據(jù)少數(shù)類的F度量指標(biāo),與成本敏感算法和非成本敏感算法相比,E-Adsampling算法的進(jìn)步是很明顯的。
G平均值被認(rèn)為是處理不平衡數(shù)據(jù)集的最重要評(píng)價(jià)指
10、標(biāo),E-AdSampling方法,在幾乎所有的數(shù)據(jù)集中,能得到最高的G平均值;除了Adult和Ozone方法,一些成本敏感算法能得到更好的結(jié)果。
E-AdSampling算法在處理少數(shù)類時(shí),計(jì)算TP率和F度量上能得到好的結(jié)果,能夠保持恒定或有輕微的上升,并且能夠保證整體正確率。
然而,有一些成本敏感算法在計(jì)算TP率時(shí)能得到更好的結(jié)果,在處理多數(shù)類和少數(shù)類時(shí),E-AdSampling算法通過得到好的F度量指標(biāo)從
11、而得到得到更好的結(jié)果,在任何情況下都能保證正確率。
每一個(gè)數(shù)據(jù)集的ROC曲線圖形化地表明了E-AdSampling的結(jié)果。
● F-Measure方法在任何數(shù)據(jù)集上處理少數(shù)類時(shí)最好的
● F-measure在處理多數(shù)類時(shí),4個(gè)到6個(gè)數(shù)據(jù)集時(shí)是最好的
● G平均值方法在處理4個(gè)到6個(gè)數(shù)據(jù)集時(shí)是最好的
● AUC在處理4個(gè)到6個(gè)數(shù)據(jù)集時(shí)是最好的
●整體正確率
12、在處理到6個(gè)數(shù)據(jù)集時(shí)能得到最好的值
這些結(jié)果證明了之前提到的算法的有效性。
為了提高E-AdSampling方法,自動(dòng)地集合鄰近數(shù)據(jù)用來合成樣本是很有必要的,并且合成樣本的百分比是根據(jù)數(shù)據(jù)集得到的,運(yùn)用E-AdSampling方法來提高數(shù)據(jù)集的不平衡(達(dá)到1:10000或者更多)是不是一個(gè)很好的方法?使用更多的類實(shí)施這種方法是否有必要?為了提高計(jì)算速率,為多數(shù)類采用另外一種欠采樣技術(shù)會(huì)不會(huì)更好?這些問題都是未
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于混合采樣的非平衡數(shù)據(jù)集分類研究.pdf
- 面向文本情感分類的非平衡數(shù)據(jù)采樣方法研究.pdf
- 基于集成分類器的數(shù)據(jù)流分類算法研究.pdf
- 基于集成學(xué)習(xí)的非平衡數(shù)據(jù)集分類問題的研究.pdf
- 類別不平衡數(shù)據(jù)的集成分類研究.pdf
- 基于UFFT的數(shù)據(jù)流集成分類器研究.pdf
- 適應(yīng)性組合分類器遙感分類研究.pdf
- 剪枝和網(wǎng)格采樣相結(jié)合的非平衡數(shù)據(jù)集分類方法.pdf
- 剪枝和網(wǎng)格采樣相結(jié)合的非平衡數(shù)據(jù)集分類方法
- 集成分類器模型的研究.pdf
- 數(shù)據(jù)流集成分類器算法研究.pdf
- 基于非平衡數(shù)據(jù)的生物文獻(xiàn)分類研究.pdf
- 基于集成學(xué)習(xí)的不平衡數(shù)據(jù)分類.pdf
- 基于多核函數(shù)SVM的非平衡數(shù)據(jù)分類研究.pdf
- 基于多特征的集成分類器在基因表達(dá)數(shù)據(jù)分類中的應(yīng)用.pdf
- 基于MapReduce的非平衡大數(shù)據(jù)集分類.pdf
- 基于多分類器集成及半監(jiān)督學(xué)習(xí)的不平衡數(shù)據(jù)分類研究.pdf
- 基于非平衡數(shù)據(jù)分類的貸款違約預(yù)測(cè)研究.pdf
- 類別不平衡與代價(jià)敏感數(shù)據(jù)的集成分類方法研究.pdf
- 基于GH-distance的自適應(yīng)性采樣算法.pdf
評(píng)論
0/150
提交評(píng)論