基于隨機森林和梯度提升模型的上位效應檢測算法研究.pdf_第1頁
已閱讀1頁,還剩63頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、過去十年中,全基因組關(guān)聯(lián)分析(GWAS)研究提高人們對疾病遺傳學的認知和理解,對于發(fā)現(xiàn)基因型-表型關(guān)系起到關(guān)鍵作用。在GWAS分析中,遺傳學家依靠DNA多態(tài)性標記來檢測這些關(guān)聯(lián)關(guān)系。單核苷酸多態(tài)性是其中最流行的一類遺傳標記,可以用來挖掘疾病的致病原因和潛在的生物機理。迄今為止,大多數(shù)遺傳關(guān)聯(lián)研究使用單基因位點分析策略,其中每個基因變體單獨和特定的表型關(guān)聯(lián)測試。但是這種策略在復雜疾病中則表現(xiàn)不成功,例如高血壓、糖尿病和哮喘等,這是由于單位

2、點分析忽略上位效應,有些位點僅能夠通過與其他基因的相互作用而影響疾病,而該基因位點的主效應的影響非常小或者不存在,這一現(xiàn)象也被稱為“丟失的遺傳性”。研究表明,上位性是復雜的人類疾病病因中普遍存在的成分,在許多性狀的遺傳控制起到至關(guān)重要的作用。
  隨著高通量測序技術(shù)的出現(xiàn),使得研究人員能夠在全基因組范圍內(nèi)檢測上位效應,能夠更好的揭露出復雜疾病潛在的遺傳機理。而在全基因組范圍檢測上位效應所遭遇到的第一個困難和挑戰(zhàn)是計算負擔。在本文研

3、究中,提出一種基于混合隨機森林框架的預篩選模型,來選擇最佳候選集合,然后在候選集合中使用MDR算法來檢測上位效應?;旌想S機森林模型能夠篩選出主效應顯著的上位效應模型和主效應微弱而組合效應顯著的純上位效應。在相加模型、相乘模型、閾值模型和純上位模型四種類型的實驗中驗證了我們的算法,實驗結(jié)果表明該算法具有一定的實際意義。
  另外我們提出一種基于梯度提升模型的置換方法,用來檢測主效應微弱的純上位效應。所提出的置換梯度提升模型pGBM,

4、通過移除SNP相互作用對GBM模型分類器的影響,來檢測最有可能發(fā)生相互作用的SNP組合對。我們采用平均AUC差值來定義相互作用,進而將模型應用到非平衡數(shù)據(jù)集上。在實驗驗證中當遺傳互質(zhì)性大于0.01的時候,該算法的檢測能力能夠達到百分之百,遺傳互質(zhì)性取值小于0.01的時候,其檢測能力也遠高于pRF算法。同時采用CPU并行計算的思想,提升模型的運算速度,進而縮短計算時間。pGBM算法采用6個CPU并行計算時,要比pRF算法快4.78倍。這種

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論