基因水平的疾病遺傳關(guān)聯(lián)分析方法研究.pdf_第1頁
已閱讀1頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、目的:
  基于單核苷酸多態(tài)性(Single nucleotide polymorphism,SNP)的全基因組關(guān)聯(lián)研究(Genome wide association study,GWAS)能夠有效地挖掘多基因復(fù)雜性狀疾病的易感基因,在國內(nèi)外的疾病遺傳關(guān)聯(lián)研究中已得到了廣泛應(yīng)用。但由于單純 SNP的關(guān)聯(lián)分析存在一些缺點和限制,近年來更多研究開始發(fā)展基因水平的疾病遺傳關(guān)聯(lián)分析方法。本研究目的是發(fā)展一種新的基于連鎖不平衡(Linka

2、ge disequilibrium,LD)結(jié)構(gòu)的基因水平關(guān)聯(lián)分析方法,利用Monte Carlo數(shù)據(jù)模擬方法對其及其它幾種常用的基因水平的關(guān)聯(lián)分析方法進行評價,了解各種方法的優(yōu)缺點和適用條件,并將新方法應(yīng)用到真實的冠心病 GWAS數(shù)據(jù),挖掘冠心病相關(guān)的易感網(wǎng)絡(luò)模塊和基因,為復(fù)雜性狀疾病的發(fā)病機制研究提供新線索。
  方法:
  1、利用Monte Carlo方法模擬基因水平的遺傳關(guān)聯(lián)數(shù)據(jù)。首先假定基因型數(shù)據(jù)為連續(xù)型變量數(shù)據(jù)且

3、服從多元正態(tài)分布,根據(jù)預(yù)先設(shè)定好的相關(guān)矩陣即 LD系數(shù)矩陣(初始 LD陣),產(chǎn)生連續(xù)型模擬數(shù)據(jù);然后根據(jù)預(yù)設(shè)的病例組和對照組的基因型頻率將模擬數(shù)據(jù)分段離散化,產(chǎn)生符合各項預(yù)設(shè)條件的遺傳模擬數(shù)據(jù),且基因型模擬數(shù)據(jù)的相關(guān)陣等于初始 LD陣。
  2、利用Monte Carlo模擬數(shù)據(jù)評價基因水平的關(guān)聯(lián)分析方法。我們發(fā)展了一種新的基于 LD結(jié)構(gòu)的基因水平關(guān)聯(lián)分析方法(LD-Fisher):首先利用單倍型分析算法對基因的LD結(jié)構(gòu)進行分析,

4、獲得基因上相對獨立的單倍域,并獲得每個單倍域中關(guān)聯(lián)最顯著的SNP,然后利用Fisher組合法獲得基因水平的整合分析結(jié)果。我們根據(jù)病例組和對照組的等位基因頻率、SNP與疾病之間的關(guān)聯(lián)系數(shù)、SNP數(shù)量、單倍域數(shù)量、易感SNP數(shù)量、SNP的LD結(jié)構(gòu)等參數(shù),采用Monte Carlo方法對參數(shù)的各種預(yù)設(shè)值和組合進行模擬,利用這些模擬數(shù)據(jù)評價多種基因水平的關(guān)聯(lián)分析方法的統(tǒng)計功效。
  3、應(yīng)用基因水平的關(guān)聯(lián)分析方法分析冠心病 GWAS數(shù)據(jù),

5、挖掘冠心病易感網(wǎng)絡(luò)模塊和基因。在對冠心病 GWAS數(shù)據(jù)基因水平的關(guān)聯(lián)分析基礎(chǔ)上,構(gòu)建冠心病相關(guān)生物信息網(wǎng)絡(luò),并對網(wǎng)絡(luò)模塊和特征進行分析,挖掘冠心病相關(guān)的易感網(wǎng)絡(luò)模塊和基因。
  結(jié)果:
  1、利用SAS程序我們實現(xiàn)了基因水平的遺傳關(guān)聯(lián)數(shù)據(jù)的Monte Carlo模擬,結(jié)果顯示,模擬遺傳數(shù)據(jù)的等位基因頻率和 LD結(jié)構(gòu)等參數(shù)均非常接近預(yù)先設(shè)定的參數(shù)。
  2、在幾種基因水平的關(guān)聯(lián)分析方法中,Logistic主成分分析法(

6、Principal component analysis-logistic regression,PCA-logistic)和我們發(fā)展的LD-Fisher表現(xiàn)最為突出。PCA-logistic在設(shè)定較高累積貢獻率參數(shù)95%(PCA95)后,無論單倍域數(shù)目多少,其統(tǒng)計功效都接近1,而降低累積貢獻率閾值為85%(PCA85)后模擬結(jié)果并不理想;LD-Fisher克服了 Fisher組合法所存在的受到 SNP的LD結(jié)構(gòu)影響的問題,在1個單倍域

7、的情況下統(tǒng)計功效接近1,比 PCA95略低,超過 PCA85;而在多個單倍域的情況下,達到 PCA95的統(tǒng)計功效。
  3、通過對冠心病的基因水平關(guān)聯(lián)分析(LD-Fisher)和生物網(wǎng)絡(luò)分析發(fā)現(xiàn)了四個冠心病的易感網(wǎng)絡(luò)模塊,其中最重要的一個模塊包含15個相互連通的的子功能模塊。我們發(fā)現(xiàn)模塊中存在兩個重要的冠心病易感基因 MAPK10(OR=32.5,P=3.5×10-11)和 COL4A2(OR=2.7,P=2.8×10-10),它

8、們得到了其他基因水平的關(guān)聯(lián)分析方法和 GWAS數(shù)據(jù)集的獨立驗證。
  結(jié)論:
  1、我們所發(fā)展的基因水平的遺傳關(guān)聯(lián)數(shù)據(jù)的Monte Carlo模擬方法能夠產(chǎn)生滿足預(yù)設(shè)參數(shù)的模擬數(shù)據(jù),并用于基因水平的關(guān)聯(lián)分析方法的評價分析,也可以用于其他遺傳關(guān)聯(lián)分析方法的評價。
  2、我們所發(fā)展的基因水平關(guān)聯(lián)分析方法 LD-Fisher不僅具有和 PCA-logistic相近的很高的統(tǒng)計功效,而且因為其具有直觀簡潔的遺傳學(xué)解釋,可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論