版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、腫瘤是影響人類健康的主要的疾病。而基因微陣列和蛋白質(zhì)質(zhì)譜等生物技術(shù)的出現(xiàn)為疾病的診斷和治療提供了新的方法,開辟了新的途徑。但由于數(shù)據(jù)具有高維、小樣本等特性,常規(guī)的模式識別方法已不再適用。針對此類數(shù)據(jù),如何剔除冗余特征、如何從海量的數(shù)據(jù)中挖掘出隱藏在數(shù)據(jù)背后的有用的生物信息成為研究識別和分類問題的關(guān)鍵。
而目前常用的特征識別方法根據(jù)子集獲取的方式,可以分為基于隨機(jī)搜索和非隨機(jī)搜索策略的特征選擇算法;從機(jī)器學(xué)習(xí)角度,特征選擇算
2、法又可以分為:過濾法和纏繞法。過濾法獨(dú)立于分類器,分類精度無法保證;纏繞法在挑選過程中需要反復(fù)調(diào)用內(nèi)嵌分類器以評估基因的分類性能,造成極高的計算量。除此之外,數(shù)據(jù)的高維、高噪聲的特點(diǎn)增加了過擬合的風(fēng)險。近年來,Michat Draminski等人結(jié)合隨機(jī)搜索策略和決策樹,提出Monte Carlo featureselection(簡稱MC)算法,它是一種隨機(jī)搜索的特征選擇算法,不僅降低了搜索時間,而且避免結(jié)果陷入局部最優(yōu)的風(fēng)險,對高維
3、數(shù)據(jù)具有較強(qiáng)的適應(yīng)性。MC算法中所用的判別準(zhǔn)則一決策樹,它綜合考慮了分類率及變量的重要性,避免過度依賴分類率,使得最終結(jié)果對于不同的分類器具有較強(qiáng)的魯棒性;決策樹中所用的判別指標(biāo)不同于傳統(tǒng)單純的分類率,其可以減低樣本不平衡問題所造成的影響。但是,MC方法在搜索變量空間過程中沒有合理規(guī)劃,并且不同的迭代問相互獨(dú)立不相關(guān),沒有相互的“通信”,沒有合理利用歷史成績和當(dāng)前排名,造成搜索效率低,結(jié)果受隨機(jī)次數(shù)影響較大。在MC算法基礎(chǔ)上,結(jié)合職業(yè)網(wǎng)
4、球選手排名機(jī)制,提出基于職業(yè)網(wǎng)球選手排名的基因隨機(jī)選擇算法(Feature Selection Algorithm based onProfessional Tennis Players Ranking,PTPR)。
PTPR算法保留了MC算法的精髓,即隨機(jī)選擇及決策樹判別,同時借鑒職業(yè)網(wǎng)球賽的排名機(jī)制,引入了“種子變量”、實(shí)時滾動更新排名,優(yōu)化了搜索過程,提高了搜索效率,保持了結(jié)果穩(wěn)定。在迭代過程中,PTPR算法不同的迭
5、代間,通過“記憶"列表,實(shí)現(xiàn)了“信息互通”,利用當(dāng)前最優(yōu)變量更新種子變量并排名,然后在下一次迭代中對種子變量的性能進(jìn)行重新的評估,重新提取當(dāng)前最優(yōu)變量,如此迭代循環(huán),直至達(dá)到最終可接受范圍的最優(yōu)解。在搜索變量的同時,對已發(fā)現(xiàn)的變量“記憶",在下一次迭代中對其重新驗(yàn)證和評價,不僅提高了搜索效率,而且最終所得的最優(yōu)變量是多次評估的結(jié)果,而非單調(diào)一次循環(huán)所得,體現(xiàn)了公平公正原則。
通過在Leukemia、Colon、Glioma
6、、Prostate、Lung和Ovarian數(shù)據(jù)集上從四個不同的角度對PTPR的性能進(jìn)行了評估,即變量排名的收斂性、變量的重復(fù)率、樣本的分類率及AUC。通過變量排名的收斂性和變量的重復(fù)的實(shí)驗(yàn)中可以看出,PTPR算法相對于MC算法,變量排名變化幅度明顯低于MC,并以較少的迭代次數(shù)收斂到穩(wěn)定的變量排名,并且PTPR多次實(shí)驗(yàn)所得到的結(jié)果相似性明顯高于MC,受外界因素影響較小。通過分類率和AUC實(shí)驗(yàn)表明,PTPR所得到的特征變量在獨(dú)立的測試集上
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于啟發(fā)式搜索的靈活規(guī)劃的算法研究.pdf
- 基于啟發(fā)式算法的聯(lián)鎖進(jìn)路搜索研究與應(yīng)用.pdf
- 生物啟發(fā)式圖像分類算法研究.pdf
- 生物啟發(fā)式算法及其改進(jìn)研究.pdf
- 基于Petri網(wǎng)和啟發(fā)式搜索的調(diào)度算法研究.pdf
- 基于啟發(fā)式搜索算法的地圖尋徑的研究.pdf
- 基于增強(qiáng)學(xué)習(xí)的啟發(fā)式和元啟發(fā)式搜索的參數(shù)調(diào)優(yōu)策略.pdf
- 基于路標(biāo)的啟發(fā)式搜索智能規(guī)劃方法研究.pdf
- 啟發(fā)式優(yōu)化算法綜述
- 基于啟發(fā)式搜索策略的主題網(wǎng)絡(luò)爬蟲算法的設(shè)計與實(shí)現(xiàn).pdf
- 元啟發(fā)式閃電搜索算法及應(yīng)用研究.pdf
- TSP的結(jié)構(gòu)特征挖掘與啟發(fā)式算法設(shè)計.pdf
- 啟發(fā)式算法研究及其應(yīng)用.pdf
- 基于EOPN和啟發(fā)式搜索算法的FMS仿真平臺研究.pdf
- 運(yùn)用啟發(fā)式搜索算法的配電系統(tǒng)故障恢復(fù)
- 資源優(yōu)化的啟發(fā)式算法研究.pdf
- 車輛調(diào)度問題啟發(fā)式算法研究.pdf
- 圓形件下料啟發(fā)式算法.pdf
- 基于啟發(fā)式搜索的汽車處理站選址問題研究.pdf
- 基于啟發(fā)式智能搜索的貨運(yùn)列車節(jié)能優(yōu)化研究.pdf
評論
0/150
提交評論