自適應(yīng)彈性網(wǎng)方法在Cox模型中的應(yīng)用.pdf_第1頁
已閱讀1頁,還剩45頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、目的:生存分析中,Cox模型是分析生存數(shù)據(jù)的經(jīng)典模型。隨著高通量技術(shù)的飛速發(fā)展,實(shí)現(xiàn)了數(shù)以萬計(jì)的基因位點(diǎn)測(cè)定,而樣本量往往較小,如何高效地從繁多的基因位點(diǎn)中篩選出與所研究疾病相關(guān)的基因位點(diǎn)就顯得尤為重要,傳統(tǒng)的Cox模型并不適用于處理高維數(shù)據(jù),并且高維數(shù)據(jù)中自變量間往往存在較強(qiáng)相關(guān)性。經(jīng)典的Lasso法雖然可以實(shí)現(xiàn)高維數(shù)據(jù)的變量選擇和系數(shù)估計(jì),較好地處理 Cox模型的變量選擇問題,但是該方法采用的是對(duì)所有的變量施加相同的懲罰,使其得到的

2、估計(jì)量往往是有偏的,并且該方法對(duì)于強(qiáng)相關(guān)變量的處理效果較差。本文為得到更加精確的稀疏化模型,將Adaptive Elastic Net(AEnet)引入Cox模型,并與Lasso、Adaptive Lasso(ALasso)、Elastic Net(Enet)三種變量選擇方法比較優(yōu)劣,從而得到更合乎實(shí)際的模型,為今后高維數(shù)據(jù)分析方法學(xué)研究奠定基礎(chǔ)。
  方法:
  1.數(shù)據(jù)模擬和實(shí)例數(shù)據(jù)分析均在 R3.3.0軟件中進(jìn)行。研究

3、過程中,主要利用“Matrix”、“MASS”、“survival”、“Coxnet”四個(gè) R包進(jìn)行數(shù)據(jù)模擬和實(shí)例數(shù)據(jù)分析。本文算法采用的是一階循環(huán)坐標(biāo)下降算法,在實(shí)際基因表達(dá)數(shù)據(jù)中,與疾病相關(guān)的基因位點(diǎn)相對(duì)較少,即最終模型具有稀疏的系數(shù)結(jié)構(gòu),該算法尤其適用這種情況,運(yùn)行速度極快,數(shù)據(jù)處理效率較高。
  2.針對(duì)生存分析中基因表達(dá)數(shù)據(jù)高維度、強(qiáng)相關(guān)、數(shù)據(jù)存在刪失的特性,生成模擬數(shù)據(jù)時(shí),變量間的相關(guān)系數(shù)設(shè)定分別為0.3、0.6、0.

4、9,刪失比例設(shè)定分別為20%、50%、70%,生成9種方案的模擬數(shù)據(jù),樣本量為100,自變量個(gè)數(shù)為1000,每種方案前10個(gè)變量系數(shù)定義為5,即高信息變量,第11至20號(hào)變量系數(shù)定義為2,即低信息變量,其他變量的系數(shù)均定義為0,即零信息變量。每種方案重復(fù)模擬1000次,均采用四種變量選擇方法進(jìn)行變量篩選,比較各部分信息變量的選擇結(jié)果。模型最優(yōu)調(diào)整參數(shù)的選擇方法為五折交叉驗(yàn)證法。
  3.實(shí)例數(shù)據(jù)來源于荷蘭Van't Veer[12

5、]等人對(duì)原發(fā)性乳腺癌病人進(jìn)行的DNA微陣列數(shù)據(jù)分析研究。本文選取該研究中78例沒有發(fā)生淋巴結(jié)轉(zhuǎn)移的乳腺癌患者4751個(gè)基因位點(diǎn)進(jìn)行分析。終點(diǎn)事件定義為乳腺癌患者是否發(fā)生遠(yuǎn)端轉(zhuǎn)移,分別用四種變量選擇方法對(duì)實(shí)例數(shù)據(jù)進(jìn)行變量篩選,并估計(jì)最終模型中各自變量系數(shù)。模型最優(yōu)調(diào)整參數(shù)的選擇方法為五折交叉驗(yàn)證法。
  結(jié)果:
  1.經(jīng)數(shù)據(jù)模擬過程,四種方法進(jìn)行變量選擇結(jié)果顯示,在數(shù)據(jù)刪失比例較低時(shí)(20%),第一部分自變量納入最終模型的百

6、分比接近百分之百,所有高信息自變量幾乎完全納入最終模型,第二部分自變量篩選百分比較高,經(jīng)比較存在差別,ALasso法相對(duì)于Lasso法、AEnet法相對(duì)于EN法篩選變量百分比有所降低。隨著刪失比例的增加,第一部分、第二部分自變量納入最終模型的百分比較低刪失時(shí)逐漸下降,并且ALasso法相對(duì)于Lasso法、AEnet法相對(duì)于Enet法篩選變量百分比有所降低。比較四種方法最終納入模型變量個(gè)數(shù)發(fā)現(xiàn),彈性網(wǎng)懲罰得到的變量個(gè)數(shù)普遍高于僅施加Las

7、so懲罰,尤其是變量間相關(guān)性較強(qiáng)時(shí),而且采用自適應(yīng)Lasso懲罰得到的變量個(gè)數(shù)均低于僅施加Lasso懲罰。
  2.實(shí)例數(shù)據(jù)分析結(jié)果顯示,Lasso、ALasso、Enet、AEnet四種變量選擇方法對(duì)實(shí)例數(shù)據(jù)進(jìn)行分析,最終模型中變量數(shù)目分別為11、4、21、8,最優(yōu)調(diào)整參數(shù)λ分別為0.207、0.250、0.344、0.500。ALasso方法篩選變量數(shù)目明顯低于Lasso方法,并且兩者篩選得到的相同變量系數(shù)比較, ALasso

8、方法篩選得到的變量系數(shù)絕對(duì)值均小于Lasso法。AEnet方法篩選變量數(shù)目明顯低于Enet方法,兩者篩并且篩選得到的相同變量系數(shù)比較, AEnet方法篩選得到的變量系數(shù)絕對(duì)值均小于Enet法。
  結(jié)論:
  1.Enet法、Lasso法都能處理高維的生存分析數(shù)據(jù),但Enet法能把強(qiáng)相關(guān)變量更多的納入最終模型,Lasso法不具有該性質(zhì)。
  2.AEnet法在處理高維度且變量間存在較強(qiáng)相關(guān)性的生存分析數(shù)據(jù)時(shí),變量選擇結(jié)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論