版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、目的:生存分析中,Cox模型是分析生存數(shù)據(jù)的經(jīng)典模型。隨著高通量技術(shù)的飛速發(fā)展,實(shí)現(xiàn)了數(shù)以萬計(jì)的基因位點(diǎn)測(cè)定,而樣本量往往較小,如何高效地從繁多的基因位點(diǎn)中篩選出與所研究疾病相關(guān)的基因位點(diǎn)就顯得尤為重要,傳統(tǒng)的Cox模型并不適用于處理高維數(shù)據(jù),并且高維數(shù)據(jù)中自變量間往往存在較強(qiáng)相關(guān)性。經(jīng)典的Lasso法雖然可以實(shí)現(xiàn)高維數(shù)據(jù)的變量選擇和系數(shù)估計(jì),較好地處理 Cox模型的變量選擇問題,但是該方法采用的是對(duì)所有的變量施加相同的懲罰,使其得到的
2、估計(jì)量往往是有偏的,并且該方法對(duì)于強(qiáng)相關(guān)變量的處理效果較差。本文為得到更加精確的稀疏化模型,將Adaptive Elastic Net(AEnet)引入Cox模型,并與Lasso、Adaptive Lasso(ALasso)、Elastic Net(Enet)三種變量選擇方法比較優(yōu)劣,從而得到更合乎實(shí)際的模型,為今后高維數(shù)據(jù)分析方法學(xué)研究奠定基礎(chǔ)。
方法:
1.數(shù)據(jù)模擬和實(shí)例數(shù)據(jù)分析均在 R3.3.0軟件中進(jìn)行。研究
3、過程中,主要利用“Matrix”、“MASS”、“survival”、“Coxnet”四個(gè) R包進(jìn)行數(shù)據(jù)模擬和實(shí)例數(shù)據(jù)分析。本文算法采用的是一階循環(huán)坐標(biāo)下降算法,在實(shí)際基因表達(dá)數(shù)據(jù)中,與疾病相關(guān)的基因位點(diǎn)相對(duì)較少,即最終模型具有稀疏的系數(shù)結(jié)構(gòu),該算法尤其適用這種情況,運(yùn)行速度極快,數(shù)據(jù)處理效率較高。
2.針對(duì)生存分析中基因表達(dá)數(shù)據(jù)高維度、強(qiáng)相關(guān)、數(shù)據(jù)存在刪失的特性,生成模擬數(shù)據(jù)時(shí),變量間的相關(guān)系數(shù)設(shè)定分別為0.3、0.6、0.
4、9,刪失比例設(shè)定分別為20%、50%、70%,生成9種方案的模擬數(shù)據(jù),樣本量為100,自變量個(gè)數(shù)為1000,每種方案前10個(gè)變量系數(shù)定義為5,即高信息變量,第11至20號(hào)變量系數(shù)定義為2,即低信息變量,其他變量的系數(shù)均定義為0,即零信息變量。每種方案重復(fù)模擬1000次,均采用四種變量選擇方法進(jìn)行變量篩選,比較各部分信息變量的選擇結(jié)果。模型最優(yōu)調(diào)整參數(shù)的選擇方法為五折交叉驗(yàn)證法。
3.實(shí)例數(shù)據(jù)來源于荷蘭Van't Veer[12
5、]等人對(duì)原發(fā)性乳腺癌病人進(jìn)行的DNA微陣列數(shù)據(jù)分析研究。本文選取該研究中78例沒有發(fā)生淋巴結(jié)轉(zhuǎn)移的乳腺癌患者4751個(gè)基因位點(diǎn)進(jìn)行分析。終點(diǎn)事件定義為乳腺癌患者是否發(fā)生遠(yuǎn)端轉(zhuǎn)移,分別用四種變量選擇方法對(duì)實(shí)例數(shù)據(jù)進(jìn)行變量篩選,并估計(jì)最終模型中各自變量系數(shù)。模型最優(yōu)調(diào)整參數(shù)的選擇方法為五折交叉驗(yàn)證法。
結(jié)果:
1.經(jīng)數(shù)據(jù)模擬過程,四種方法進(jìn)行變量選擇結(jié)果顯示,在數(shù)據(jù)刪失比例較低時(shí)(20%),第一部分自變量納入最終模型的百
6、分比接近百分之百,所有高信息自變量幾乎完全納入最終模型,第二部分自變量篩選百分比較高,經(jīng)比較存在差別,ALasso法相對(duì)于Lasso法、AEnet法相對(duì)于EN法篩選變量百分比有所降低。隨著刪失比例的增加,第一部分、第二部分自變量納入最終模型的百分比較低刪失時(shí)逐漸下降,并且ALasso法相對(duì)于Lasso法、AEnet法相對(duì)于Enet法篩選變量百分比有所降低。比較四種方法最終納入模型變量個(gè)數(shù)發(fā)現(xiàn),彈性網(wǎng)懲罰得到的變量個(gè)數(shù)普遍高于僅施加Las
7、so懲罰,尤其是變量間相關(guān)性較強(qiáng)時(shí),而且采用自適應(yīng)Lasso懲罰得到的變量個(gè)數(shù)均低于僅施加Lasso懲罰。
2.實(shí)例數(shù)據(jù)分析結(jié)果顯示,Lasso、ALasso、Enet、AEnet四種變量選擇方法對(duì)實(shí)例數(shù)據(jù)進(jìn)行分析,最終模型中變量數(shù)目分別為11、4、21、8,最優(yōu)調(diào)整參數(shù)λ分別為0.207、0.250、0.344、0.500。ALasso方法篩選變量數(shù)目明顯低于Lasso方法,并且兩者篩選得到的相同變量系數(shù)比較, ALasso
8、方法篩選得到的變量系數(shù)絕對(duì)值均小于Lasso法。AEnet方法篩選變量數(shù)目明顯低于Enet方法,兩者篩并且篩選得到的相同變量系數(shù)比較, AEnet方法篩選得到的變量系數(shù)絕對(duì)值均小于Enet法。
結(jié)論:
1.Enet法、Lasso法都能處理高維的生存分析數(shù)據(jù),但Enet法能把強(qiáng)相關(guān)變量更多的納入最終模型,Lasso法不具有該性質(zhì)。
2.AEnet法在處理高維度且變量間存在較強(qiáng)相關(guān)性的生存分析數(shù)據(jù)時(shí),變量選擇結(jié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 自適應(yīng)彈性網(wǎng)邏輯回歸模型的研究.pdf
- 廣義線性模型中基于自適應(yīng)彈性網(wǎng)的變量選擇.pdf
- Cox模型及變系數(shù)Cox模型中的變量選擇問題研究——基于自適應(yīng)LASSO法.pdf
- 多模型自適應(yīng)控制及其在電廠中的應(yīng)用.pdf
- 幾種變量選擇方法在Cox模型中的應(yīng)用.pdf
- 自適應(yīng)濾波器在自適應(yīng)逆控制中的應(yīng)用.pdf
- 無模型自適應(yīng)控制在多效蒸發(fā)中的應(yīng)用.pdf
- 模糊控制在模型參考自適應(yīng)預(yù)估控制中的應(yīng)用.pdf
- 模型參考自適應(yīng)控制方法的研究及其在熱工過程控制中的應(yīng)用.pdf
- 自適應(yīng)用戶模型在RSS網(wǎng)絡(luò)信息服務(wù)中的研究.pdf
- 自適應(yīng)字典壓縮感知模型及其在MRI成像中的應(yīng)用.pdf
- 自適應(yīng)信號(hào)處理在水聲中的應(yīng)用.pdf
- 自適應(yīng)算法在OFDM系統(tǒng)中的應(yīng)用.pdf
- 無模型自適應(yīng)控制方法及其應(yīng)用研究.pdf
- 多模型自適應(yīng)控制及其在熱工過程中的應(yīng)用.pdf
- 多模型魯棒自適應(yīng)控制及其在風(fēng)洞系統(tǒng)中的應(yīng)用.pdf
- 懲罰COX模型和彈性網(wǎng)技術(shù)在高維數(shù)據(jù)生存分析中的應(yīng)用.pdf
- 基于語義網(wǎng)的自適應(yīng)學(xué)習(xí)系統(tǒng)中領(lǐng)域模型的研究.pdf
- CAD模型自適應(yīng)方法研究.pdf
- 網(wǎng)構(gòu)軟件自適應(yīng)方法研究.pdf
評(píng)論
0/150
提交評(píng)論