因果圖理論驅(qū)動(dòng)下系統(tǒng)流行病學(xué)設(shè)計(jì)與分析的理論方法研究.pdf_第1頁
已閱讀1頁,還剩155頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、為了推斷“暴露因子→組學(xué)生物標(biāo)記→疾病終點(diǎn)”間的通路效應(yīng)大小,需要在研究設(shè)計(jì)和數(shù)據(jù)分析層面上,解決一系列關(guān)鍵問題。
  (1)在設(shè)計(jì)層面上,雖然系統(tǒng)流行病學(xué)研究仍可借鑒傳統(tǒng)流行病學(xué)研究的設(shè)計(jì)方法(如病例對(duì)照研究、隊(duì)列研究和實(shí)驗(yàn)流行病學(xué)研究等),但因“暴露因子→組學(xué)生物標(biāo)記→疾病終點(diǎn)”間往往存在復(fù)雜的網(wǎng)絡(luò)調(diào)控關(guān)系(不僅存在著因果關(guān)系,還同時(shí)存在大量的非因果關(guān)系),使得準(zhǔn)確識(shí)別因果通路并估計(jì)出其因果效應(yīng)變得十分困難。需要從因果推斷理論

2、層面上探討復(fù)雜網(wǎng)絡(luò)環(huán)境下因果效應(yīng)的推斷方法。
  (2)在組學(xué)生物標(biāo)記篩選層面上,雖然可以采用傳統(tǒng)的統(tǒng)計(jì)學(xué)方法(如卡方檢驗(yàn),t檢驗(yàn),回歸模型等)篩選出與疾病終點(diǎn)相關(guān)的生物標(biāo)記,但這些篩選方法本質(zhì)是關(guān)聯(lián)分析而非標(biāo)記與疾病終點(diǎn)之間的因果關(guān)系。
  (3)在特定“暴露因子→組學(xué)生物標(biāo)記→疾病終點(diǎn)”因果通路(或病因網(wǎng)絡(luò))的識(shí)別及其效應(yīng)估計(jì)方面,由于通路(或網(wǎng)絡(luò))節(jié)點(diǎn)之間不僅存在因果關(guān)系還存在復(fù)雜而廣泛的非因果關(guān)系,因此,需要去除非因

3、果關(guān)系并準(zhǔn)確識(shí)別因果通路(或因果網(wǎng)絡(luò)),進(jìn)而估計(jì)通路效應(yīng)大小。
  為了解決上述三個(gè)方面的問題,本論文進(jìn)行了如下四個(gè)方而的研究工作:
  一、因果推斷的圖模型理論及因果推斷準(zhǔn)則(第一章)
  引入了近年來發(fā)展起來的因果圖理論,在Judea Pearl提出的因果圖模型框架內(nèi),概括綜述了因果推斷的基本理論和因果推斷準(zhǔn)則。
  二、基于因果推斷的匹配策略與回歸策略的理論方法研究(第二章)
  在系統(tǒng)流行病學(xué)研究中

4、,推斷暴露→組學(xué)標(biāo)記、組學(xué)標(biāo)記→組學(xué)標(biāo)記、組學(xué)標(biāo)記→疾病終點(diǎn)等各個(gè)環(huán)節(jié)的因果關(guān)系是識(shí)別暴露因子致病通路及其因果效應(yīng)估計(jì)的核心。盡管在病因網(wǎng)絡(luò)中,暴露因子、組學(xué)標(biāo)記和疾病終點(diǎn)呈現(xiàn)出錯(cuò)綜復(fù)雜的網(wǎng)絡(luò)關(guān)系,但推斷任何復(fù)雜因果網(wǎng)絡(luò)節(jié)點(diǎn)之間的因果關(guān)系均可簡化和縮減為三個(gè)節(jié)點(diǎn)之間三種核心關(guān)系:因果路(E→C→D)、混雜路(E←C→D)和碰撞路(E→C←D)。在推斷暴露E對(duì)D的因果效應(yīng)時(shí),若對(duì)節(jié)點(diǎn)C施加條件(匹配或回歸調(diào)整)則對(duì)因果路(E→C→D)和碰

5、撞路(E→C←D)會(huì)造成過度調(diào)整,從而歪曲因果關(guān)系;而對(duì)混雜路(E←C→D)則可以消除混雜作用,從而能夠準(zhǔn)確推斷E對(duì)D的因果效應(yīng)。然而,對(duì)于復(fù)雜的病因網(wǎng)絡(luò)中的任意三個(gè)節(jié)點(diǎn)而言,畢竟不僅僅包含上述三種關(guān)系,從因果拓?fù)浣Y(jié)構(gòu)上存在27中關(guān)系。為此,本研究首先定義了病因網(wǎng)絡(luò)中的如下9種關(guān)系情形:a)C是暴露E和疾病D的混雜;b)C是暴露E和疾病D的共同原因并且E對(duì)D沒有因果作用;c)C是疾病D的獨(dú)立病因;d)C是E的原因但是對(duì)D沒有直接因果作用

6、;e)C是E和D的共同子節(jié)點(diǎn);f)C是D的子節(jié)點(diǎn);g)C是E的子節(jié)點(diǎn);h)C是從E到D因果路上的中間環(huán)節(jié);i)C是一個(gè)工具變量。進(jìn)而,在Judea Pearl的因果圖理論框架下,采用do-算子(do-caculus)和后門準(zhǔn)則(back-door criterion)計(jì)算E→D的真實(shí)因果效應(yīng)(β);以此作為金標(biāo)準(zhǔn),從理論推導(dǎo)和統(tǒng)計(jì)模擬兩個(gè)層面上,考察對(duì)C施加條件(包括匹配策略和回歸調(diào)整策略)后,對(duì)估計(jì)E→D的真實(shí)因果效應(yīng)(β)的偏倚((

7、β)1-β)和精度(SE((β)1))的影響;從而,概括總結(jié)出系統(tǒng)流行病學(xué)研究中,使用匹配策略和回歸調(diào)整策略的正確方法。
  主要結(jié)果:
  (1)當(dāng)C為混雜(情形a)時(shí),在傳統(tǒng)分析流行病學(xué)研究中,認(rèn)為匹配病例對(duì)照研究可以有效提高精度(即SE((β)1)),而且可以降低偏倚((β)1-β)。然而本研究經(jīng)理論推導(dǎo)證明,匹配C對(duì)精度沒有明顯的提升;同時(shí),也不能完全消除偏倚。在匹配后仍然需要采用條件logistic回歸模型或非條件

8、logistic回歸模型對(duì) C進(jìn)行調(diào)整,但以非條件 logistic回歸模型(logit(p(D=1| E,C))=β0+β1"E+β2C)調(diào)整的精度最高。
  (2)當(dāng)C與E或者D相關(guān)但又不是一個(gè)混雜因素(包括情形b,情形c,情形d,情形e,情形g,情形h)時(shí),理論推導(dǎo)和統(tǒng)計(jì)模擬均證明:對(duì)C進(jìn)行匹配、以及采用條件logistic回歸模型或非條件logistic回歸模型對(duì)C進(jìn)行調(diào)整,均可造成額外的偏倚,從而歪曲E→D的真實(shí)因果效應(yīng)

9、。
  (3)當(dāng)C不是一個(gè)混雜而是D的結(jié)果(情形f),對(duì)C進(jìn)行匹配或采用條件logistic回歸模型及非條件logistic回歸模型對(duì)C調(diào)整均是沒必要的。不僅如此,還能降低E→D的因果效應(yīng)估計(jì)精度。
  (4)當(dāng)C是一個(gè)工具變量(情形i)時(shí),對(duì)C進(jìn)行匹配或采用條件logistic回歸模型及非條件logistic回歸模型進(jìn)行調(diào)整均不能減少偏倚,這主要是由于觀測不到的混雜U的存在。
  結(jié)論:
  在系統(tǒng)流行病學(xué)網(wǎng)絡(luò)

10、環(huán)境下,研究暴露(E)對(duì)疾病終點(diǎn)(D)的因果效應(yīng),必須統(tǒng)籌考慮網(wǎng)絡(luò)中其它眾多因素(C1,C2,C3,…,Cn)與E和D的關(guān)系;在此基礎(chǔ)上根據(jù)上述理論推導(dǎo)及統(tǒng)計(jì)模擬結(jié)果,科學(xué)合理地使用匹配策略和回歸調(diào)整策略,方可準(zhǔn)確地、精確地估計(jì)E→D的因果效應(yīng)。否則,任意武斷地使用匹配和回歸策略,勢必?fù)p失準(zhǔn)確性和精確性。
  三、基于條件獨(dú)立準(zhǔn)則的組學(xué)生物標(biāo)記篩選策略(第三章)
  本研究針對(duì)高維組學(xué)生物標(biāo)記篩選問題,基于因果圖理論的馬爾科

11、夫毯(Markov Blanket)條件獨(dú)立準(zhǔn)則,提出了組學(xué)標(biāo)記篩選的重復(fù)釣魚策略(MB-based Repeated-fishing strategy,MBRFS),構(gòu)建了篩選與疾病終點(diǎn)具有潛在因果關(guān)系的組學(xué)標(biāo)記的新方法,為進(jìn)一步構(gòu)建組學(xué)生物標(biāo)記→疾病終點(diǎn)之間的因果通路(或網(wǎng)絡(luò))提供了潛在的因果證據(jù)。
  主要結(jié)果:
  (1)針對(duì)傳統(tǒng)馬爾科夫毯算法(KS算法、GS算法、IAMB算法、MMMB、HITON-MB,DASSO

12、-MB和FEPI-MB算法等)在處理高維組學(xué)數(shù)據(jù)中的缺陷,本研究提出了組學(xué)標(biāo)記篩選的重復(fù)釣魚策略和算法(MBRFS)。
  (2)基于功能基因組學(xué)中的“gain of function”研究策略,創(chuàng)建了模擬基因組數(shù)據(jù)的研究策略。設(shè)計(jì)了四種不同情形的模擬基因組數(shù)據(jù)。
  (3)統(tǒng)計(jì)模擬表明,與傳統(tǒng)方法(test with Bonferroni or B-H adjustment,LASSO,DASSO-MB)相比,MBRFS具

13、有以下優(yōu)勢:1)在原假設(shè)成立的情況下,我們提出的MBRFS算法在上述三種模擬情景下的真陽性發(fā)現(xiàn)率(TDR)接近于0。2)遍歷不同的效應(yīng)強(qiáng)度(OR)和最小等位基因頻率(MAF),MBRFS表現(xiàn)出最好的篩選效果。3)更重要的是,由于MBRFS策略使用了重復(fù)釣魚策略,能有效地捕捉到Bonferroni矯正漏掉的效應(yīng)小的,但與疾病表型有潛在因果關(guān)系的組學(xué)標(biāo)記。
  (4)使用我們創(chuàng)建的MBRFS算法,分析GWAS數(shù)據(jù)(706個(gè)麻風(fēng)病患者和

14、514個(gè)健康對(duì)照的491,883個(gè)SNPs)、乳腺癌的基因表達(dá)數(shù)據(jù)和甲基化數(shù)據(jù)和關(guān)于精神分裂癥的代謝組數(shù)據(jù),結(jié)果表明,我們提出的MBRFS算法優(yōu)于其他算法
  結(jié)論:
  我們提出的MBRFS算法,適合于系統(tǒng)流行病學(xué)研究中篩選與疾病表型有潛在因果關(guān)系的組學(xué)標(biāo)記;它能夠在真實(shí)自然的組學(xué)數(shù)據(jù)環(huán)境中,準(zhǔn)確地識(shí)別出與疾病表型有潛在因果關(guān)系的組學(xué)標(biāo)記。
  四、基于因果推斷的致病通路識(shí)別及其效應(yīng)估計(jì)模型研究(第四章)
  

15、以Judea Pearl提出的因果推斷的do算子為理論基礎(chǔ),本研究仿照上游河流匯集是造成下游河水增加的水文因果關(guān)系,提出了“暴露因子→組學(xué)生物標(biāo)記→疾病終點(diǎn)”因果通路識(shí)別及其效應(yīng)估計(jì)的因果圖模型,定義了因果通路識(shí)別及其效應(yīng)估計(jì)的統(tǒng)計(jì)量(PSEM),從而為系統(tǒng)流行病學(xué)致病通路識(shí)別及其效應(yīng)估計(jì)提供了新方法。
  主要結(jié)果:
  (1)針對(duì)復(fù)雜致病網(wǎng)絡(luò)中的特定因果路,基于因果圖理論,提出了從復(fù)雜致病網(wǎng)絡(luò)中簡化和抽提特定致病網(wǎng)絡(luò)的5

16、種新準(zhǔn)則。
  (2)在識(shí)別復(fù)雜致病網(wǎng)絡(luò)中的特定致病通路(E→M1→M2→M3→…→D)時(shí),針對(duì)其不可識(shí)別性,本研究提出了分段連乘因果效應(yīng)統(tǒng)計(jì)量計(jì)算公式(PSE=ΠK(l)-1AR=AR1·AR2,…,ARK),從而有效地解決了系統(tǒng)流行病學(xué)復(fù)雜致病網(wǎng)絡(luò)中,計(jì)算特定致病通路因果效應(yīng)的不可識(shí)別性。
  (3)定義了識(shí)別和檢驗(yàn)致病通路(E→M1→M2→M3→…→D)的統(tǒng)計(jì)量(StatisticPSE),該統(tǒng)計(jì)量不僅能夠通過顯著性檢

17、驗(yàn)識(shí)別致病通路,而且還能同時(shí)估計(jì)致病通路的絕對(duì)因果效應(yīng);為了在系統(tǒng)流行病學(xué)復(fù)雜網(wǎng)絡(luò)中,比較多條致病通路的致病效應(yīng)大小,本研究又定義了致病通路的標(biāo)化絕對(duì)效應(yīng)量度(ARSPSE)和相對(duì)效應(yīng)統(tǒng)計(jì)量(RRSPSE)。從而,建立了完備的致病通路識(shí)別及其效應(yīng)估計(jì)的定量方法。
  (4)統(tǒng)計(jì)模擬結(jié)果表明:基于上述統(tǒng)計(jì)量的Permutation test表現(xiàn)出良好的穩(wěn)定性和較高的檢驗(yàn)效能,可用于在復(fù)雜致病網(wǎng)絡(luò)中識(shí)別特定致病通路,并比較致病通路的效

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論