版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、特征選擇通過選擇一個最優(yōu)的特征子集降低數(shù)據(jù)維數(shù),構造一個簡潔的分類系統(tǒng),提高分類預測的準確性,揭示隱藏的潛在模式和規(guī)律,得到一個快速、高效的分類器,并使分類結果可視化成為可能。
現(xiàn)有特征選擇研究主要著眼于選擇最優(yōu)特征子集所需要的兩個主要步驟:特征子集搜索策略和特征子集性能評價準則?;赟VM的特征選擇方法研究存在如下問題:如何評價特征的重要性,即如何判斷特征對于分類的貢獻?如何考慮特征之間的相關性?如何確定最佳的被選擇特征數(shù)目
2、?如何選擇合適的SVM分類器模型、合適的SVM參數(shù)?對超高維、小樣本的基因數(shù)據(jù)集進行分類分析時,如何實現(xiàn)基因選擇?另外,現(xiàn)有基于SVM的特征選擇方法主要基于后向剔除思想,而后向剔除相對于前向選擇時間效率較差。
本研究針對基于SVM的特征選擇算法研究存在的以上問題,提出分別基于4種不同特征重要性評價準則與SVM的特征選擇算法;并針對基因數(shù)據(jù)集的高維小樣本特點,提出了基于SVM分類模型的隨機基因選擇算法。所取得的主要研究成果包括:
3、
1.提出基于G-score與SVM的適用于任意類分類問題的特征選擇算法,所提算法彌補了基于F-score與SVM的特征選擇算法只適用于兩類分類問題的不足。其中,G-score將F-score特征重要性評價準則由評價兩類分類問題的特征區(qū)分度推廣到可以衡量任意類分類問題的特征區(qū)分度;算法的特征搜索策略采用推廣的前向順序搜索策略GSFS(GeneralizedSequentialForwardSearch,GSFS)、推廣的前向順
4、序浮動搜索策略GSFFS(GeneralizedSequentialForwardFloatingSearch,GSFFS),以及推廣的后向順序浮動搜索策略GSBFS(GeneralizedSequentialBackwardFloatingSearch,GSBFS)。UCI機器學習數(shù)據(jù)庫數(shù)據(jù)集的實驗顯示:基于G-score與SVM的三種混合特征選擇算法可以實現(xiàn)有效的特征選擇,其中就特征子集規(guī)模來看,基于G-score與SVM的前向順序
5、浮動特征選擇算法效果最佳;但就分類正確率,即分類器的泛化性能來看,相應的前向順序特征選擇算法最優(yōu)。
2.提出基于D-score與SVM的特征選擇算法,該算法避免了基于G-score與SVM的特征選擇算法在衡量特征的類間辨別能力大小時,沒有考慮不同特征的測量量綱對特征區(qū)分度大小的影響問題。UCI機器學習數(shù)據(jù)庫的9個特征選擇常用數(shù)據(jù)集實驗測試,以及與相應的基于G-score與SVM特征選擇算法的實驗比較表明:提出的基于D-scor
6、e與SVM的特征選擇算法所選擇的特征具有較好的分類效果,其分類性能優(yōu)于基于G-score與SVM的特征選擇方法,實現(xiàn)了保持數(shù)據(jù)集辨識能力不變情況下進行維數(shù)壓縮的目的?;贒-score與SVM的3種混合特征選擇算法相比,就特征子集規(guī)模來看,前向順序浮動特征選擇算法最好;但就分類器的泛化性能相比,前向順序特征選擇算法具有最好的泛化性能。
3.提出基于DFS(DiscernibilityofFeatureSubsets,DFS)與
7、SVM的特征選擇算法,該算法解決了基于G-score與SVM、D-score與SVM的特征選擇算法在衡量特征的類間辨別能力大小時候,沒有考慮特征之間的相關性對于單個特征的類間辨別能力大小的影響問題。其中,DFS是一種新的特征子集區(qū)分度評價方法,通過計算多個特征構成的特征子集的G-score值,判斷特征子集的類間區(qū)分度大小,考慮了特征子集中特征的聯(lián)合作用,即特征子集中所有特征對于分類的聯(lián)合貢獻。同時根據(jù)特征子集評價方法CFS(Correl
8、ationbasedFeatureSelector,CFS)中Pearson相關系數(shù)度量特征相關性的正、負相關之分,提出不區(qū)分特征之間的正、負相關,只考慮其是否相關的CFSPabs(CorrelationbasedFeatureSelectorbasedontheabsoluteofPearson’scorrelationcoefficient,CFSPabs)方法。特征搜索策略分別采用經(jīng)典的順序前向搜索(SequentialForwa
9、rdSearch,SFS)、順序后向搜索(SequentialBackwardSearch,SBS)、順序前向浮動搜索(SequentialForwardFloatingSearch,SFFS)、順序后向浮動搜索(SequentialBackwardFloatingSearch,SBFS)4種搜索策略,區(qū)別在于在浮動搜索策略中,判斷特征加入/剔除應用特征子集的區(qū)分度DFS,而浮動剔除/加入特征應用分類器的訓練準確率。UCI機器學習數(shù)據(jù)庫
10、中10個經(jīng)典數(shù)據(jù)集的5折交叉驗證實驗表明:提出的基于DFS特征子集評價準則與SVM的特征選擇算法是一種有效的特征子集選擇方法,該方法所選特征子集的分類性能優(yōu)于分別基于CFS與SVM、CFSPabs與SVM的特征選擇方法;但是就特征子集規(guī)模來看,基于CFSPabs與SVM的方法最優(yōu)。
4.鑒于SVM對于非線性可分問題的最大泛化性能,提出基于SVM分類模型的適用于多類分類問題的特征選擇方法SVMRFE(SVMRecursiveFe
11、atureElimination)和SVMRFA(SVMRecursiveFeatureAddition),避免分別基于G-score、D-score和DFS與SVM的特征選擇算法在非線性可分問題中有可能誤剔除有效區(qū)分特征的缺陷;同時克服Guyou的SVM-RFE特征選擇算法只適用于兩類分類問題的缺陷。UCI機器學習數(shù)據(jù)庫的9個經(jīng)典數(shù)據(jù)集的5折交叉驗證實驗表明:提出的SVMRFA和SVMRFE特征選擇算法能在保持或提高分類正確率的前提下
12、,實現(xiàn)有效的特征選擇;9個數(shù)據(jù)集的實驗測試,SVMRFA算法在8個數(shù)據(jù)集上優(yōu)于SVMRFE算法。實驗還證明,對于較低維數(shù)據(jù)集,該兩個特征選擇算法的效率差別不大,但是對于維數(shù)比較高的數(shù)據(jù)集進行特征選擇時,SVMRFA特征選擇算法的效率明顯優(yōu)于SVMRFE算法。
5.針對基因數(shù)據(jù)集的高維小樣本特點,并結合上一研究結論,提出基于SVM分類模型的基因選擇算法——SVMRRFA(SVMRecursiveRandom Featu
13、reAddition,SVMRRFA),該算法引入隨機思想,針對具體的基因數(shù)據(jù)集,在每次迭代中同時加入若干個隨機數(shù)確定的基因。為了減少算法時間開銷,提出了簡化的SVMRRFA基因選擇算法。普林斯頓大學基因表達工程的3個基因數(shù)據(jù)集實驗測試和比較表明:提出的SVMRRFA基因選擇算法實現(xiàn)了有效的基因選擇,發(fā)現(xiàn)了基因數(shù)據(jù)集的關鍵區(qū)分基因,實現(xiàn)了有效的癌癥分類診斷;簡化SVMRRFA算法提高了SVMRRFA基因選擇算法的分類正確率、特異性和Ma
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于SVM-RFE的特征選擇方法研究.pdf
- 基于多目標遺傳算法和SVM的特征選擇方法.pdf
- 基于SVM的人臉特征定位方法研究.pdf
- 基于SVM的特征選擇與集成學習研究與應用.pdf
- 基于SVM的多病類診斷基因選擇方法研究.pdf
- 基于特征融合和SVM的步態(tài)識別方法研究.pdf
- SVM文本分類中基于法向量的特征選擇算法研究.pdf
- 基于多類特征的SVM圖像分割方法的研究.pdf
- 基于SVM的文本分類系統(tǒng)中特征選擇與.pdf
- 基于SVm-RFE和粒子群算法的特征選擇算法研究.pdf
- 基于分類特征映射和SVM的說話人確認方法研究.pdf
- 基于Lasso的特征選擇方法研究與實現(xiàn).pdf
- 基于特征選擇的量表條目篩選方法研究.pdf
- 基于原型方法的特征選擇算法的研究.pdf
- 基于SVM圖像分類方法的研究.pdf
- 基于特征選擇的產(chǎn)品關鍵質(zhì)量特征識別方法研究.pdf
- 基于KPLS特征提取下的FWLS-SVM回歸方法.pdf
- 基于層次聚類特征選擇和HF-SVM的活動識別技術.pdf
- 基于SVM和DSW的列質(zhì)量向量特征步態(tài)識別方法研究.pdf
- 基于樣本加權的特征基因選擇方法研究.pdf
評論
0/150
提交評論