網(wǎng)絡(luò)結(jié)構(gòu)驅(qū)動(dòng)的生物標(biāo)記篩選及疾病預(yù)測(cè)模型研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩140頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、本文分為以下幾個(gè)部分進(jìn)行探討:
  一、基因網(wǎng)絡(luò)拓?fù)湎闰?yàn)驅(qū)動(dòng)的貝葉斯生物標(biāo)記篩選模型(第二章)
  在全基因組關(guān)聯(lián)分析(GWAS)中,數(shù)據(jù)分析策略包括兩種:第一種是統(tǒng)計(jì)推斷策略,即采用統(tǒng)計(jì)學(xué)檢驗(yàn)(如卡方檢驗(yàn)、t檢驗(yàn)、Logistic回歸模型等)方法,針對(duì)每一個(gè)生物標(biāo)記(SNP位點(diǎn))計(jì)算對(duì)比組(如病例組和對(duì)照組)之間的統(tǒng)計(jì)量及其對(duì)應(yīng)的P值,通過(guò)比較P值與預(yù)先設(shè)定的顯著性檢驗(yàn)水準(zhǔn)α決定是否拒絕H0,若P<α則認(rèn)為該SNP位點(diǎn)與疾

2、病具有統(tǒng)計(jì)學(xué)關(guān)聯(lián)。第二種是變量選擇策略,即采用變量選擇方法(如LASSO回歸、嶺回歸等),將與疾病具有關(guān)聯(lián)性的SNP位點(diǎn)選入模型。上述兩類方法均忽略了基因交互網(wǎng)絡(luò)結(jié)構(gòu),因而不可避免的會(huì)丟失信息。為此,本研究提出了基因網(wǎng)絡(luò)拓?fù)湎闰?yàn)驅(qū)動(dòng)的生物標(biāo)記(SNP)篩選模型,在SNP和疾病表型之間引入基因網(wǎng)絡(luò)層,作為生物標(biāo)記篩選的網(wǎng)絡(luò)拓?fù)湎闰?yàn),進(jìn)而構(gòu)建貝葉斯分層模型(Bayesian hierarchical model),篩選出與疾病表型有關(guān)的SN

3、P位點(diǎn)。即,構(gòu)建基因網(wǎng)絡(luò)拓?fù)湎闰?yàn)驅(qū)動(dòng)的貝葉斯生物標(biāo)記篩選模型(ND-BVS model)。該方法是針對(duì)全外顯子測(cè)序的GWAS基因組數(shù)據(jù)的整體基因關(guān)聯(lián)分析方法,此類數(shù)據(jù)是以整體基因?yàn)閱挝?gene-based),獲取基因內(nèi)外顯子區(qū)域內(nèi)的全部SNP分型數(shù)據(jù)。
  基因網(wǎng)絡(luò)拓?fù)湎闰?yàn)驅(qū)動(dòng)的貝葉斯生物標(biāo)記篩選模型的基本原理和方法如下:1)從KEGG數(shù)據(jù)庫(kù)(http://www.kegg.jp/)中獲取基因網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)(該數(shù)據(jù)庫(kù)中的生物網(wǎng)絡(luò)

4、結(jié)構(gòu)均經(jīng)大量的實(shí)驗(yàn)證實(shí)),構(gòu)建基因間的鄰接矩陣R(如果基因i和基因j間在網(wǎng)絡(luò)中有連線,則Rij=1,否則Rij=0)。2)以基因網(wǎng)絡(luò)結(jié)構(gòu)為先驗(yàn),構(gòu)建貝葉斯分層模型Zi=(T(ξ,γ)β(ξ,γ))i+εi,εi~N(0,1),其中Z是表型潛變量得分,T(ξ,γ)是基因得分,β(ξ,γ)為基因?qū)Ρ硇偷男?yīng);ξ=(ξ1,…,ξJ)是決定第j個(gè)基因是否被選入模型的指示變量,ξj=1表示第j個(gè)基因被選入,否則不被選入。γ=(γ1,…,γP)是決

5、定特定基因j內(nèi)第p個(gè)SNP是否被選入模型的指示變量,γp=1表示第p個(gè)SNP被選入,否則不被選入。3)在上述貝葉斯分層模型中,ξ=(ξ1,…,ξJ)的先驗(yàn)分布定義為基因之間的馬爾科夫隨機(jī)場(chǎng),兩兩基因之間的關(guān)系由鄰接矩陣R決定;γ=(γ1,…,γP)的先驗(yàn)分布由每個(gè)SNP的指示變量服從伯努利分布而界定。4)根據(jù)概率的鏈?zhǔn)椒纸夥▌t推導(dǎo)上述模型內(nèi)所有參數(shù)的聯(lián)合后驗(yàn)分布,進(jìn)而通過(guò)馬爾科夫鏈蒙特卡洛(MCMC)方法獲得參數(shù)的后驗(yàn)概率。5)根據(jù)SN

6、P的后驗(yàn)概率由高到低排序,將SNP依次納入模型后經(jīng)十折交叉驗(yàn)證計(jì)算預(yù)測(cè)誤差,當(dāng)模型納入前k個(gè)SNP使得預(yù)測(cè)誤差達(dá)到最小時(shí),則將前k個(gè)SNP定義為與疾病表型相關(guān)聯(lián)的位點(diǎn)。
  結(jié)論:
  ND-BVS模型充分利用了基因之間的交互網(wǎng)絡(luò)拓?fù)湎闰?yàn),與傳統(tǒng)方法(LASSO回歸和逐步回歸法)相比提高了致病位點(diǎn)的識(shí)別能力及對(duì)疾病表型的預(yù)測(cè)能力。
  主要?jiǎng)?chuàng)新點(diǎn):
  在貝葉斯分層模型框架內(nèi),基于基因網(wǎng)絡(luò)拓?fù)湎闰?yàn),構(gòu)建了基因網(wǎng)絡(luò)

7、拓?fù)湎闰?yàn)驅(qū)動(dòng)的貝葉斯生物標(biāo)記篩選模型(ND-BVS),為全外顯子測(cè)序的GWAS基因組數(shù)據(jù)分析提供了新方法。
  二、網(wǎng)絡(luò)結(jié)構(gòu)驅(qū)動(dòng)的疾病篩檢模型(第三章)
  疾病篩檢是一種主動(dòng)發(fā)現(xiàn)無(wú)癥狀疾病的預(yù)防性措施,它是應(yīng)用能迅速區(qū)分外表健康的人群中可能有病者與可能無(wú)病者的試驗(yàn)、檢查或其他步驟,對(duì)未被識(shí)別的疾病或缺陷作出推斷性鑒定。通常采用橫斷面調(diào)查,首先確定與疾病表型相關(guān)的因素(包括生活習(xí)慣、體質(zhì)測(cè)量指標(biāo)、生化指標(biāo)、血清學(xué)標(biāo)記、基因標(biāo)

8、記等),然后以表型相關(guān)因素為輸入變量,以疾病表型為輸出變量,采用統(tǒng)計(jì)模式識(shí)別模型構(gòu)建相應(yīng)的疾病篩檢模型。在建模策略上,通常是基于回歸建模策略(例如Logistic回歸模型),將自變量(篩查指標(biāo))以線性可加形式納入疾病篩檢模型。這種策略只能反映篩檢指標(biāo)對(duì)疾病表型的獨(dú)立線性可加效應(yīng),或通過(guò)變量的乘積項(xiàng)反映變量之間的交互的獨(dú)立效應(yīng)對(duì)疾病表型的貢獻(xiàn)。然而,篩檢指標(biāo)對(duì)疾病表型的影響是復(fù)雜的,不僅廣泛存在著非線性效應(yīng),而且往往存在復(fù)雜的交互效應(yīng)。當(dāng)

9、篩檢指標(biāo)較多且交互作用復(fù)雜時(shí),回歸建模策略將出現(xiàn)估計(jì)偏性或失效。盡管可以采用神經(jīng)網(wǎng)絡(luò)模型等學(xué)習(xí)算法,優(yōu)化學(xué)習(xí)變量之間的交互效應(yīng)或非線性效應(yīng),從而提高預(yù)測(cè)精度,但此類方法本質(zhì)上仍未擺脫回歸模型的限制,仍然忽略了變量之間的調(diào)控關(guān)系,且往往存在過(guò)度學(xué)習(xí)的缺陷,從而出現(xiàn)外推預(yù)測(cè)的不準(zhǔn)確性。為此,本研究基于條件獨(dú)立準(zhǔn)則,構(gòu)建變量之間的貝葉斯網(wǎng)絡(luò),不僅充分提取變量之間的調(diào)控關(guān)系,而且利用了變量網(wǎng)絡(luò)的整體效應(yīng),旨在提高模型的篩檢能力。
  貝葉

10、斯網(wǎng)絡(luò)是借助網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來(lái)描述變量之間的依賴和獨(dú)立關(guān)系的有向無(wú)環(huán)圖(directed acyclic graph,DAG)。網(wǎng)絡(luò)中的節(jié)點(diǎn)表示變量,節(jié)點(diǎn)間的邊表示變量間的直接依賴關(guān)系。貝葉斯網(wǎng)絡(luò)的構(gòu)建包括網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí)兩部分,在網(wǎng)絡(luò)節(jié)點(diǎn)(生物標(biāo)記)之間的病理生理調(diào)控先驗(yàn)與計(jì)算機(jī)機(jī)器學(xué)習(xí)算法有機(jī)結(jié)合,進(jìn)行網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí),在網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)的基礎(chǔ)上,通過(guò)最大似然法估計(jì)網(wǎng)絡(luò)節(jié)點(diǎn)的條件概率(即參數(shù)學(xué)習(xí))。為了評(píng)價(jià)基于網(wǎng)絡(luò)結(jié)構(gòu)的疾病篩檢模型的

11、科學(xué)性和有效性,本研究設(shè)計(jì)了如下統(tǒng)計(jì)模擬試驗(yàn):以十折交叉驗(yàn)證的AUC(AUC-CV)作為評(píng)價(jià)指標(biāo),評(píng)價(jià)所構(gòu)建的貝葉斯網(wǎng)絡(luò)疾病篩檢模型的判別能力,并與Logistic回歸模型、神經(jīng)網(wǎng)絡(luò)模型進(jìn)行比較。具體模擬方案如下:1)在原假設(shè)成立(AUC=0.5)時(shí),設(shè)立兩種情形(所有預(yù)測(cè)因子相互獨(dú)立且與疾病結(jié)局無(wú)關(guān)、預(yù)測(cè)因子之間具有網(wǎng)絡(luò)結(jié)構(gòu)但與疾病結(jié)局無(wú)關(guān)),評(píng)價(jià)模型的判別能力AUC指標(biāo)是否穩(wěn)定在0.5附近。2)設(shè)置多種網(wǎng)絡(luò)結(jié)構(gòu)(如普通網(wǎng)絡(luò)、輪狀網(wǎng)絡(luò)

12、、鏈狀網(wǎng)絡(luò)),基于貝葉斯網(wǎng)絡(luò)算法產(chǎn)生網(wǎng)絡(luò)模擬數(shù)據(jù),探索在何種情況下忽略網(wǎng)絡(luò)結(jié)構(gòu)而盲目采用回歸分析策略(Logistic回歸模型、神經(jīng)網(wǎng)絡(luò)模型)將導(dǎo)致判別能力的損失。3)通過(guò)Logistic回歸模型產(chǎn)生線性可加性的沒(méi)有網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù),比較貝葉斯網(wǎng)絡(luò)模型與Logistic回歸模型的判別能力,探討貝葉斯網(wǎng)絡(luò)在線性可加情況下的穩(wěn)健性。
  結(jié)論:
  忽略預(yù)測(cè)因子之間以及預(yù)測(cè)因子與疾病表型之間的網(wǎng)絡(luò)結(jié)構(gòu)而構(gòu)建的疾病篩檢模型,不可避免

13、的將損失判別能力;而利用上述網(wǎng)絡(luò)結(jié)構(gòu)信息構(gòu)建的疾病篩檢模型不僅能提高判別能力,并且在預(yù)測(cè)變量間不存在網(wǎng)絡(luò)結(jié)構(gòu)時(shí),貝葉斯網(wǎng)絡(luò)模型仍能顯示出與Logistic回歸模型等價(jià)的判別能力。
  主要?jiǎng)?chuàng)新點(diǎn):
  提出了利用預(yù)測(cè)因子與疾病表型之間的網(wǎng)絡(luò)結(jié)構(gòu)信息提高疾病篩檢模型判別能力的創(chuàng)新建模策略,證明了忽略網(wǎng)絡(luò)結(jié)構(gòu)信息而構(gòu)建的疾病篩檢模型勢(shì)必?fù)p失判別能力,為充分利用網(wǎng)絡(luò)信息提高疾病篩檢模型判別能力提供了新思路。
  三、網(wǎng)絡(luò)結(jié)構(gòu)

14、驅(qū)動(dòng)的疾病風(fēng)險(xiǎn)預(yù)測(cè)模型(第四章)
  疾病風(fēng)險(xiǎn)預(yù)測(cè)的基本任務(wù)是指在疾病結(jié)局發(fā)生前,采用競(jìng)爭(zhēng)風(fēng)險(xiǎn)模型預(yù)測(cè)個(gè)體未來(lái)特定時(shí)間段內(nèi)疾病發(fā)生的絕對(duì)風(fēng)險(xiǎn)。而絕對(duì)風(fēng)險(xiǎn)是指具備某特定危險(xiǎn)因素集的某個(gè)體在年齡a時(shí)未發(fā)生疾病結(jié)局而在年齡a+τ時(shí)段內(nèi)發(fā)生該疾病的概率,其中τ是人為規(guī)定的隨訪時(shí)間,一般設(shè)為五年風(fēng)險(xiǎn)預(yù)測(cè)模型或十年風(fēng)險(xiǎn)預(yù)測(cè)模型。在疾病風(fēng)險(xiǎn)預(yù)測(cè)中,競(jìng)爭(zhēng)風(fēng)險(xiǎn)是廣泛存在的,它是指在研究對(duì)象的隨訪期內(nèi),除了會(huì)發(fā)生所研究的疾病結(jié)局外,還會(huì)出現(xiàn)其它競(jìng)爭(zhēng)性

15、結(jié)局,它的出現(xiàn)往往會(huì)影響所研究的疾病結(jié)局的發(fā)生概率,甚至導(dǎo)致疾病結(jié)局不會(huì)再發(fā)生;例如,在構(gòu)建腦卒中發(fā)病風(fēng)險(xiǎn)預(yù)測(cè)模型時(shí),若某個(gè)體在腦卒中發(fā)生前死于肺癌,則該個(gè)體今后發(fā)生腦卒中的概率即為0。在構(gòu)建疾病風(fēng)險(xiǎn)預(yù)測(cè)模型中,若不考慮競(jìng)爭(zhēng)風(fēng)險(xiǎn)效應(yīng)對(duì)疾病發(fā)生或轉(zhuǎn)歸概率的影響,勢(shì)必會(huì)導(dǎo)致對(duì)預(yù)測(cè)果的偏差。因此,疾病風(fēng)險(xiǎn)預(yù)測(cè)模型構(gòu)建常?;诟?jìng)爭(zhēng)風(fēng)險(xiǎn)理論,構(gòu)建原因別風(fēng)險(xiǎn)模型(cause-specific hazardmodel)或部分分布風(fēng)險(xiǎn)模型(sub-di

16、stribution hazard model)。其中,原因別風(fēng)險(xiǎn)模型使用范圍較廣,既可基于隊(duì)列設(shè)計(jì),又可基于病例對(duì)照設(shè)計(jì)構(gòu)建疾病風(fēng)險(xiǎn)預(yù)測(cè)模型,其基本原理如下:
  本研究提出了網(wǎng)絡(luò)結(jié)構(gòu)驅(qū)動(dòng)的疾病風(fēng)險(xiǎn)預(yù)測(cè)模型構(gòu)建的新策略。其基本方法是,首先建立預(yù)測(cè)因子與疾病表型之間的貝葉斯網(wǎng)絡(luò)模型,進(jìn)而利用貝葉斯網(wǎng)絡(luò)計(jì)算具有特定預(yù)測(cè)因子向量的個(gè)體發(fā)生疾病結(jié)局的相對(duì)危險(xiǎn)度為RRBNi=P(Y=1|Xi1,Xi2,…Xip)P(Y=1| X01,X0

17、2,…X0p),其中X01,X02,…,X0p是處于基準(zhǔn)發(fā)病風(fēng)險(xiǎn)的個(gè)體的暴露水平,而Xi1,Xi2,…,Xip是其實(shí)際暴露水平?;谝陨侠碚撃P?,本研究通過(guò)統(tǒng)計(jì)模擬實(shí)驗(yàn),評(píng)價(jià)所構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)驅(qū)動(dòng)的疾病風(fēng)險(xiǎn)預(yù)測(cè)模型的校準(zhǔn)能力(E/O比)和判別能力(AUC),并與傳統(tǒng)的Logistic回歸模型方法進(jìn)行比較(模擬方案見(jiàn)正文4.2.3)。通過(guò)本課題組所構(gòu)建的多中心健康體檢縱向檢測(cè)隊(duì)列構(gòu)建糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型,進(jìn)一步評(píng)價(jià)模型的實(shí)用性。
  結(jié)

18、論:
  統(tǒng)計(jì)模擬與實(shí)例驗(yàn)證均表明,網(wǎng)絡(luò)結(jié)構(gòu)驅(qū)動(dòng)的疾病風(fēng)險(xiǎn)預(yù)測(cè)模型與傳統(tǒng)的基于Logistic回歸的疾病預(yù)測(cè)模型相比,雖然在判別能力(AUC)上相差不大,但在外推預(yù)測(cè)準(zhǔn)確性(E/O比)上,前者明顯優(yōu)于后者。提示忽略網(wǎng)絡(luò)結(jié)構(gòu)的預(yù)測(cè)模型勢(shì)必會(huì)造成模型預(yù)測(cè)準(zhǔn)確性的降低。
  主要?jiǎng)?chuàng)新點(diǎn):
  將預(yù)測(cè)因子與疾病表型之間的網(wǎng)絡(luò)結(jié)構(gòu)信息嵌入到競(jìng)爭(zhēng)風(fēng)險(xiǎn)模型內(nèi),構(gòu)建了網(wǎng)絡(luò)結(jié)構(gòu)驅(qū)動(dòng)的疾病風(fēng)險(xiǎn)預(yù)測(cè)模型,提高了疾病風(fēng)險(xiǎn)預(yù)測(cè)模型的預(yù)測(cè)準(zhǔn)確性,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論