自適應(yīng)彈性網(wǎng)方法在Cox模型中的應(yīng)用.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-06 格式：pdf 頁數(shù)：46 大小：2.28MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

自適應(yīng)彈性網(wǎng)方法在Cox模型中的應(yīng)用.pdf_第1頁

已閱讀1頁，還剩45頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、目的：生存分析中，Cox模型是分析生存數(shù)據(jù)的經(jīng)典模型。隨著高通量技術(shù)的飛速發(fā)展，實(shí)現(xiàn)了數(shù)以萬計(jì)的基因位點(diǎn)測定，而樣本量往往較小，如何高效地從繁多的基因位點(diǎn)中篩選出與所研究疾病相關(guān)的基因位點(diǎn)就顯得尤為重要，傳統(tǒng)的Cox模型并不適用于處理高維數(shù)據(jù)，并且高維數(shù)據(jù)中自變量間往往存在較強(qiáng)相關(guān)性。經(jīng)典的Lasso法雖然可以實(shí)現(xiàn)高維數(shù)據(jù)的變量選擇和系數(shù)估計(jì)，較好地處理 Cox模型的變量選擇問題，但是該方法采用的是對(duì)所有的變量施加相同的懲罰，使其得到的

2、估計(jì)量往往是有偏的，并且該方法對(duì)于強(qiáng)相關(guān)變量的處理效果較差。本文為得到更加精確的稀疏化模型，將Adaptive Elastic Net(AEnet)引入Cox模型，并與Lasso、Adaptive Lasso(ALasso)、Elastic Net(Enet)三種變量選擇方法比較優(yōu)劣，從而得到更合乎實(shí)際的模型，為今后高維數(shù)據(jù)分析方法學(xué)研究奠定基礎(chǔ)。
　　方法：
　　1.數(shù)據(jù)模擬和實(shí)例數(shù)據(jù)分析均在 R3.3.0軟件中進(jìn)行。研究

3、過程中，主要利用“Matrix”、“MASS”、“survival”、“Coxnet”四個(gè) R包進(jìn)行數(shù)據(jù)模擬和實(shí)例數(shù)據(jù)分析。本文算法采用的是一階循環(huán)坐標(biāo)下降算法，在實(shí)際基因表達(dá)數(shù)據(jù)中，與疾病相關(guān)的基因位點(diǎn)相對(duì)較少，即最終模型具有稀疏的系數(shù)結(jié)構(gòu)，該算法尤其適用這種情況，運(yùn)行速度極快，數(shù)據(jù)處理效率較高。
　　2.針對(duì)生存分析中基因表達(dá)數(shù)據(jù)高維度、強(qiáng)相關(guān)、數(shù)據(jù)存在刪失的特性，生成模擬數(shù)據(jù)時(shí)，變量間的相關(guān)系數(shù)設(shè)定分別為0.3、0.6、0.

4、9，刪失比例設(shè)定分別為20％、50%、70%，生成9種方案的模擬數(shù)據(jù)，樣本量為100，自變量個(gè)數(shù)為1000，每種方案前10個(gè)變量系數(shù)定義為5，即高信息變量，第11至20號(hào)變量系數(shù)定義為2，即低信息變量，其他變量的系數(shù)均定義為0，即零信息變量。每種方案重復(fù)模擬1000次，均采用四種變量選擇方法進(jìn)行變量篩選，比較各部分信息變量的選擇結(jié)果。模型最優(yōu)調(diào)整參數(shù)的選擇方法為五折交叉驗(yàn)證法。
　　3.實(shí)例數(shù)據(jù)來源于荷蘭Van't Veer[12

5、]等人對(duì)原發(fā)性乳腺癌病人進(jìn)行的DNA微陣列數(shù)據(jù)分析研究。本文選取該研究中78例沒有發(fā)生淋巴結(jié)轉(zhuǎn)移的乳腺癌患者4751個(gè)基因位點(diǎn)進(jìn)行分析。終點(diǎn)事件定義為乳腺癌患者是否發(fā)生遠(yuǎn)端轉(zhuǎn)移，分別用四種變量選擇方法對(duì)實(shí)例數(shù)據(jù)進(jìn)行變量篩選，并估計(jì)最終模型中各自變量系數(shù)。模型最優(yōu)調(diào)整參數(shù)的選擇方法為五折交叉驗(yàn)證法。
　　結(jié)果：
　　1.經(jīng)數(shù)據(jù)模擬過程，四種方法進(jìn)行變量選擇結(jié)果顯示，在數(shù)據(jù)刪失比例較低時(shí)（20%），第一部分自變量納入最終模型的百

6、分比接近百分之百，所有高信息自變量幾乎完全納入最終模型，第二部分自變量篩選百分比較高，經(jīng)比較存在差別，ALasso法相對(duì)于Lasso法、AEnet法相對(duì)于EN法篩選變量百分比有所降低。隨著刪失比例的增加，第一部分、第二部分自變量納入最終模型的百分比較低刪失時(shí)逐漸下降，并且ALasso法相對(duì)于Lasso法、AEnet法相對(duì)于Enet法篩選變量百分比有所降低。比較四種方法最終納入模型變量個(gè)數(shù)發(fā)現(xiàn)，彈性網(wǎng)懲罰得到的變量個(gè)數(shù)普遍高于僅施加Las

7、so懲罰，尤其是變量間相關(guān)性較強(qiáng)時(shí)，而且采用自適應(yīng)Lasso懲罰得到的變量個(gè)數(shù)均低于僅施加Lasso懲罰。
　　2.實(shí)例數(shù)據(jù)分析結(jié)果顯示，Lasso、ALasso、Enet、AEnet四種變量選擇方法對(duì)實(shí)例數(shù)據(jù)進(jìn)行分析，最終模型中變量數(shù)目分別為11、4、21、8，最優(yōu)調(diào)整參數(shù)λ分別為0.207、0.250、0.344、0.500。ALasso方法篩選變量數(shù)目明顯低于Lasso方法，并且兩者篩選得到的相同變量系數(shù)比較， ALasso

8、方法篩選得到的變量系數(shù)絕對(duì)值均小于Lasso法。AEnet方法篩選變量數(shù)目明顯低于Enet方法，兩者篩并且篩選得到的相同變量系數(shù)比較， AEnet方法篩選得到的變量系數(shù)絕對(duì)值均小于Enet法。
　　結(jié)論：
　　1.Enet法、Lasso法都能處理高維的生存分析數(shù)據(jù)，但Enet法能把強(qiáng)相關(guān)變量更多的納入最終模型，Lasso法不具有該性質(zhì)。
　　2.AEnet法在處理高維度且變量間存在較強(qiáng)相關(guān)性的生存分析數(shù)據(jù)時(shí)，變量選擇結(jié)

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

自適應(yīng)彈性網(wǎng)方法在Cox模型中的應(yīng)用.pdf

文檔簡介

溫馨提示

最新文檔

評(píng)論

自適應(yīng)彈性網(wǎng)方法在Cox模型中的應(yīng)用.pdf

文檔簡介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載