非均衡分類的集成學習應用研究.pdf_第1頁
已閱讀1頁,還剩68頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、類傾斜分布的數(shù)據(jù)集廣泛存在于現(xiàn)實世界中。在很多領域,針對非均衡分布的分類問題,少數(shù)類樣本被正確分類的重要程度往往高于多數(shù)類樣本被正確分類的重要程度。在類傾斜分布數(shù)據(jù)集的前提下構建非均衡分類模型時,大多經(jīng)典分類算法都是以訓練集具有平衡的類分布或者各類樣本具有相同的誤分代價為前提建立分類模型,因此,非均衡的類分布在一定程度上造成了這些分類算法性能下降。在這種情況下,少數(shù)類樣本的信息往往被多數(shù)類樣本信息所掩蓋,導致來自少數(shù)類樣本的分類錯誤率遠

2、遠高于多數(shù)類樣本。因此,非均衡分類問題的研究愈發(fā)受到廣泛關注,同時也成為數(shù)據(jù)挖掘應用領域的熱點及難點問題。本文在探討非均衡分類應用問題之前,首先對非均衡分類問題研究內容和現(xiàn)狀進行介紹,從采樣方法、分類算法方面展開詳細的綜述。然后,根據(jù)集成學習算法在處理非均衡數(shù)據(jù)時,較單分類器能夠取得更好的性能的優(yōu)點,進一步探討了集成學習組合方法對非均衡分類問題的處理情況,并對相關應用進行詳細闡述。本文基于集成學習模型對非均衡分類問題有以下兩部分應用:<

3、br>  第一部分,基于2014年A股滬市1000組上市公司財務數(shù)據(jù),使用基于海格林距離的隨機森林(Hellinger Distance based Random Forest,HDRF)從ST股非均衡分類的角度對上市公司財務預警模型構建問題進行研究?;诤A指窬嚯x的隨機森林能夠集成隨機森林的差異性以及海林格距離決策樹的傾斜不敏感特征,實驗中選擇了傳統(tǒng)隨機森林、基于C4.5決策樹為基分類器的Bagging、AdaBoost、旋轉森林集成

4、分類器以及基于海林格決策樹為基分類器的相應集成分類器作對比實驗,實驗結果表明基于海林格距離的隨機森林集成模型在處理上市公司ST股非均衡分類問題時,在ROC曲線下面積及Fmeasure指標上具有相對更好的綜合分類性能,此外海林格距離決策樹作為基分類器能夠提高集成模型非均衡分類性能。
  第二部分,拓展了非均衡分類模型的應用。針對客戶關系管理領域的客戶保持研究,此部分重點討論了商業(yè)銀行客戶流失問題,將CVParameterSelect

5、ion應用于支持向量機組合核函數(shù)參數(shù)尋優(yōu),構建了基于EasyEnsemble的Relief-SVM客戶流失預測模型,并通過商業(yè)銀行客戶資料數(shù)據(jù)研究驗證了該模型較單一核函數(shù)EasyEnsemble-Relief-SVM模型及傳統(tǒng)C4.5決策樹為基分類器的Bagging、AdaBoost集成分類器在AUC、Fmeasure指標上均有所提升。因此,在參數(shù)尋優(yōu)前提下組合核函數(shù)EasyEnsemble的Relief-SVM客戶流失預測模型是一種處

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論