版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、對人類疾病遺傳與環(huán)境的病因?qū)W研究一直是流行病學(xué)的重要任務(wù)。然而,傳統(tǒng)“黑盒子”流行病學(xué)往往側(cè)重于識別單一危險因素,并未聚焦網(wǎng)絡(luò)對疾病的影響,因而難以深層次地探討致病機(jī)制。研究者渴望打開“黑盒子”,闡明致病因素如何通過“黑盒子”中的病因鏈環(huán)節(jié)而導(dǎo)致疾病發(fā)生、發(fā)展與轉(zhuǎn)歸結(jié)局。高通量組學(xué)技術(shù)的成熟發(fā)展與檢測成本的大幅度減低,使得流行病學(xué)家有機(jī)會將系統(tǒng)生物學(xué)理論方法與傳統(tǒng)流行病學(xué)有機(jī)結(jié)合,借助于豐富多彩的組學(xué)標(biāo)記在大樣本人群中闡明“暴露”到“疾
2、病結(jié)局”的作用機(jī)制,從而催生了一個嶄新的流行病學(xué)分支學(xué)科—系統(tǒng)流行病學(xué)。本課題組將系統(tǒng)流行病學(xué)的學(xué)科內(nèi)涵概括為:將高通量組學(xué)技術(shù)與傳統(tǒng)流行病學(xué)研究相互融合,利用基因組(Genome)、表觀組(Epigenome)、轉(zhuǎn)錄組(Transcriptome)、蛋白組(Preteome)、代謝組(Metabolome)、表型組(Phenome)等生物組學(xué)標(biāo)記,結(jié)合生物信息學(xué)網(wǎng)絡(luò)數(shù)據(jù)庫的通路信息,采用系統(tǒng)生物學(xué)方法構(gòu)建“暴露因子-組學(xué)生物標(biāo)記-疾病
3、終點”間的交互網(wǎng)絡(luò),并檢測不同狀態(tài)下(例如疾病組與健康組)網(wǎng)絡(luò)間的差異,以推斷危險因子導(dǎo)致疾病發(fā)生、發(fā)展與轉(zhuǎn)歸的致病網(wǎng)絡(luò)或特定致病通路及其效應(yīng)大小;從而,為進(jìn)一步闡明危險因子致病通路及流行病學(xué)作用機(jī)制、實驗室功能驗證、藥物靶點設(shè)計、預(yù)防或診療措施制定與評估提供科學(xué)依據(jù)。系統(tǒng)流行病學(xué)為在人群水平上闡明疾病發(fā)生、發(fā)展與轉(zhuǎn)歸機(jī)制描繪了宏偉藍(lán)圖,它將實現(xiàn)從獨立病因研究向病因網(wǎng)絡(luò)研究的跨越性轉(zhuǎn)變。在這一轉(zhuǎn)變進(jìn)程中,病因網(wǎng)絡(luò)構(gòu)建與致病通路識別將是打
4、開“黑盒子”的重要策略,而網(wǎng)絡(luò)差異的比較正是獲取致病網(wǎng)絡(luò)及致病通路統(tǒng)計學(xué)證據(jù)的重要方法。因此,系統(tǒng)流行病學(xué)的核心是在人群水平上通過“暴露因子-組學(xué)生物標(biāo)記-疾病終點”網(wǎng)絡(luò)/通路的組間差異統(tǒng)計學(xué)比較,推斷危險因子導(dǎo)致疾病發(fā)生、發(fā)展、轉(zhuǎn)歸的網(wǎng)絡(luò)/通路及其效應(yīng)大小。
任何破壞網(wǎng)絡(luò)/通路交互結(jié)構(gòu)的統(tǒng)計學(xué)比較方法勢必會丟失信息,失去其系統(tǒng)流行病學(xué)意義。然而,目前在流行病學(xué)研究中,仍以卡方檢驗、t檢驗或回歸分析等傳統(tǒng)方法作為生物標(biāo)記組間差
5、異比較的主流方法。這些方法武斷地將原本是相互作用(或調(diào)控)的網(wǎng)絡(luò)節(jié)點假定為近似相互獨立狀態(tài),忽略了它們間的交互網(wǎng)絡(luò)結(jié)構(gòu);所以,除了得到生物標(biāo)記組間差異的基本信息外,既不能得到組間網(wǎng)絡(luò)差異信息,更不能推斷出特定危險因素的致病通路及其效應(yīng)大小。最近,盡管在一些高質(zhì)量的人群組學(xué)研究中,已經(jīng)注重通過后續(xù)功能實驗驗證和生物信息學(xué)方法推斷出調(diào)控網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),但因缺乏組間網(wǎng)絡(luò)差異比較的有效統(tǒng)計學(xué)方法,也只能定性地分析網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征,仍難以在人群水平
6、上定量推斷危險因子的致病網(wǎng)絡(luò)/通路及其效應(yīng)大小。因此,發(fā)展網(wǎng)絡(luò)差異比較的統(tǒng)計分析方法,在人群水平上,比較不同組間的網(wǎng)絡(luò)差異,進(jìn)而推斷危險因子的致病通路及其效應(yīng)大小,就成為系統(tǒng)流行病學(xué)統(tǒng)計分析的重要任務(wù)。
必須澄清的是,盡管系統(tǒng)流行病學(xué)強(qiáng)調(diào)用高通量組學(xué)分析技術(shù)在人群水平上獲得組學(xué)標(biāo)記大數(shù)據(jù),但在實際工作中,因研究假設(shè)、目的或條件的不同,常常需要在2種不同研究策略下推斷網(wǎng)絡(luò)差異:
1)基于分子流行病學(xué)方法的假設(shè)驅(qū)動(Hy
7、pothesis-Driven)研究策略:研究者在深入理解所研究疾病的生理、生化及病理機(jī)制基礎(chǔ)上,綜合以往細(xì)胞(動物)實驗或組學(xué)分析結(jié)果,借助生物信息學(xué)網(wǎng)絡(luò)數(shù)據(jù)庫通路信息,事先勾畫出一個假定合理的致病網(wǎng)絡(luò)/通路。進(jìn)而,用分子流行病學(xué)方法檢測網(wǎng)絡(luò)/通路節(jié)點上的生物標(biāo)記,并在人群水平上檢驗組間網(wǎng)絡(luò)/通路差異及其效應(yīng)。以期在人群中驗證所假設(shè)致病網(wǎng)絡(luò)/通路的真實性及實用性(設(shè)計藥物靶點、預(yù)測疾病發(fā)生預(yù)后、制定及評估預(yù)防或診療策略等)。
8、 2)基于高通量組學(xué)技術(shù)的數(shù)據(jù)驅(qū)動(Data-Driven)研究策略:研究者在不受任何假設(shè)限制的情況下,利用各種高通量組學(xué)技術(shù),在人群水平上獲得研究樣本的組學(xué)標(biāo)記數(shù)據(jù)。進(jìn)而,借助系統(tǒng)生物學(xué)方法構(gòu)建“暴露因子-組學(xué)生物標(biāo)記-疾病終點”網(wǎng)絡(luò)模型,并在人群水平上檢驗“對比組”間網(wǎng)絡(luò)/通路差異及其效應(yīng)。為進(jìn)一步實驗驗證、藥物靶點確定、制定預(yù)防或診療措施提供依據(jù)。無論是假設(shè)驅(qū)動還是數(shù)據(jù)驅(qū)動的研究策略,均存在無向網(wǎng)絡(luò)比較和有向網(wǎng)絡(luò)比較兩種情形。前者
9、側(cè)重點是比較“對比組”間網(wǎng)絡(luò)節(jié)點及其相互作用(相關(guān)關(guān)系)的統(tǒng)計學(xué)差異,而后者側(cè)重點則是比較網(wǎng)絡(luò)節(jié)點及其調(diào)控關(guān)系的統(tǒng)計學(xué)差異。因此,系統(tǒng)流行病學(xué)硼究中網(wǎng)絡(luò)差異比較的檢驗方法,應(yīng)包括無向網(wǎng)絡(luò)比較和有向網(wǎng)絡(luò)比較2種情形。
在系統(tǒng)流行病學(xué)研究中,生物網(wǎng)絡(luò)不僅具備復(fù)雜網(wǎng)絡(luò)的一般性質(zhì)(自組織、自相似、吸引子、小世界、無標(biāo)度等),更重要的是,對于多數(shù)復(fù)雜疾病的致病網(wǎng)絡(luò)而言,其“節(jié)點”和“邊”的連續(xù)定量變化譜蘊(yùn)含著網(wǎng)絡(luò)差異的全部信息;即,節(jié)點
10、和邊多不是“全有或全無(1或0)”式的“開或關(guān)”模式,而是多表現(xiàn)為由0→1的定量漸變式的模式。即使有些基因(如某些致癌基因)在健康狀態(tài)下幾乎不表達(dá)而呈現(xiàn)“全有或全無”模式,其實質(zhì)也可看作是連續(xù)表達(dá)譜上的一個極端特殊情形。因此,系統(tǒng)流行病學(xué)網(wǎng)絡(luò)的差異囊括了“節(jié)點”和“邊”的雙重差異,單純“節(jié)點”或單純“邊”的差異遠(yuǎn)不能代表其全部信息的差異。對于有向網(wǎng)絡(luò),網(wǎng)絡(luò)差異絕非僅僅是其“節(jié)點”和“邊”兩部分差異的簡單合并,還應(yīng)充分體現(xiàn)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)所蘊(yùn)
11、含的方向信息,即調(diào)控網(wǎng)絡(luò)內(nèi)“邊”的箭頭指向及“上游節(jié)點”對“下游節(jié)點”的調(diào)控權(quán)重。
然而,目前在系統(tǒng)生物學(xué)或人群組學(xué)研究中,現(xiàn)有的網(wǎng)絡(luò)比較算法(或統(tǒng)計量)多數(shù)未能涵蓋統(tǒng)計量構(gòu)建中所必需的上述全部信息。因而,不適合推廣到系統(tǒng)流行病學(xué)研究中網(wǎng)絡(luò)差異比較上。存在的問題可概括為如下4個方面:
1)最極端的情況是上述討論過的傳統(tǒng)方法(卡方檢驗、t檢驗等),它們完全忽略了網(wǎng)絡(luò)的“邊差異信息”。
2)系統(tǒng)生物學(xué)中的網(wǎng)絡(luò)比
12、較算法和軟件,多是針對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征指標(biāo),對“邊”進(jìn)行操作而不注重“節(jié)點”信息。主要采取網(wǎng)絡(luò)對齊、網(wǎng)絡(luò)相似性比較或聚類、網(wǎng)絡(luò)路徑搜索等方法比較網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)差異。
3)生物信息學(xué)中的生物網(wǎng)絡(luò)比較方法,多數(shù)是對“點”進(jìn)行標(biāo)準(zhǔn)化使其均值為0方差為1后(無疑損失了點的變異信息),再針對“邊”的差異著重檢測“點”之間的連通性,包括通過節(jié)點中心性比較以尋找關(guān)鍵節(jié)點或通路、基于網(wǎng)絡(luò)模體頻率比較網(wǎng)絡(luò)拓?fù)洳町悺⒒诰W(wǎng)絡(luò)間不相似性度量構(gòu)建網(wǎng)絡(luò)差
13、異比較統(tǒng)計量、基因芯片差異表達(dá)連通分析等。
4)尚缺乏考慮有向網(wǎng)絡(luò)內(nèi)“邊”的箭頭指向及“上游節(jié)點”對“下游節(jié)點”調(diào)控權(quán)重的有向網(wǎng)絡(luò)比較方法。
為解決以上問題,本研究在系統(tǒng)流行病學(xué)框架下,從統(tǒng)計學(xué)和系統(tǒng)生物學(xué)的雙重視角,審視生物網(wǎng)絡(luò)“節(jié)點”與“邊”共變特征,采取“結(jié)構(gòu)拆分→數(shù)理整合”的研究策略,構(gòu)建融合網(wǎng)絡(luò)“節(jié)點”、“邊”和“方向”差異信息的“系統(tǒng)流行病學(xué)網(wǎng)絡(luò)差異比較的統(tǒng)計分析方法體系”。圖1是本論文的研究框架。
14、> 如圖1(1)所示,盡管“對比組”間網(wǎng)絡(luò)差異類型有5種,若將情形b)、c)、d)、e)中節(jié)點或邊的去除或增加均看作是情形a)中的“虛擬”點或邊,則所有情形均可歸屬于情形a);此時去掉的點或邊的取值為0,而增加的點或邊的取值為其相應(yīng)的節(jié)點測量值及相關(guān)程度。如圖1(2)所示,假設(shè)兩“對比組A、B”的樣本量分別為nA、nB,nA+nB=N。根據(jù)上述“虛擬”點或邊的思想,A、B兩“對比組”對應(yīng)的網(wǎng)絡(luò)均可視為具有M個節(jié)點K條邊。用GA(VA,
15、EA)表示A組對應(yīng)的網(wǎng)絡(luò),其中VA=(xA1,xA2,…,xAM)為其節(jié)點集合。EA=(IAijσAij)M×M為其邊集合(更詳細(xì)的矩陣表達(dá)形式見圖1),其中,IAij={1,存在節(jié)點xAi與xAj之間的邊為0,其它示性函數(shù),表示節(jié)點xAi與xAj之間的連接狀態(tài),即IA=(IAij)M×M在無向網(wǎng)絡(luò)中僅表示節(jié)點xAi與xAj是否連接,此時IAij=IAji,而在有向網(wǎng)絡(luò)中,當(dāng)節(jié)點xAj與xAj的連接狀態(tài)為xAi→xAj(i≠j,xAi,
16、xAj∈VA)時,IAji=1,IAji=0,反之亦然;σAij表示節(jié)點xAj與xAi之間的連接強(qiáng)度(可用相關(guān)系數(shù)等度量)。相應(yīng)地,GB(VB,EB)表示B組對應(yīng)的網(wǎng)絡(luò),其中VB=(xB1,xB2,…,xBM)為其節(jié)點集合,EB=(IBijσBij)M×M為其邊的集合,而IB=(IBij)M×M為連接狀態(tài)集合。本研究構(gòu)建“對比組”間網(wǎng)絡(luò)差異檢驗統(tǒng)計量的基本策略為“結(jié)構(gòu)拆分→數(shù)理整合”。
其基本思想是:
1)結(jié)構(gòu)拆分:
17、先將對比組A與B的網(wǎng)絡(luò)GA(VA,EA)與GB(VB,EB)的拓?fù)浣Y(jié)構(gòu)分別拆分為節(jié)點信息(VA,VB)、邊信息(EA,EB)和方向信息(IA,IB),再求兩對比組間相應(yīng)的節(jié)點信息、邊信息和方向信息的差值(即效應(yīng))DV=(VA-VB)、DE=(EA-EB)和Dl=(IA-1B)。
2)數(shù)理整合:通過數(shù)理統(tǒng)計手段,將節(jié)點信息、邊信息和方向信息的差值(效應(yīng))DV、DE和Dl整合為兩“對比組”間網(wǎng)絡(luò)差異(效應(yīng))的統(tǒng)計量Diff=(DV
18、∪DE∪D);該統(tǒng)計量將網(wǎng)絡(luò)的“節(jié)點”、“邊”和“方向”差異信息融為一體。
在上述研究策略框架內(nèi)(圖1),本論文針對致病網(wǎng)絡(luò)差異囊括“節(jié)點”、“邊”和“方向”的共變特征,重點研究了以下幾個關(guān)鍵問題:
1)提出網(wǎng)絡(luò)差異比較的“結(jié)構(gòu)拆分→數(shù)理整合”的研究策略。
2)整合網(wǎng)絡(luò)“節(jié)點”和“邊”的雙重連續(xù)漸變差異信息,發(fā)展了致病通路識別及其效應(yīng)估計的統(tǒng)計推斷模型(第二章)和無向網(wǎng)絡(luò)組間差異比較的得分檢驗方法(第三章)
19、。
3)整合網(wǎng)絡(luò)“節(jié)點”與“邊”雙重差異信息、以及上下游節(jié)點調(diào)控加權(quán)信息,發(fā)展了“有向網(wǎng)絡(luò)”組間差異比較的檢驗方法(第四章)。
4)基于聯(lián)合密度估計的非參數(shù)方法,建立了致病交互網(wǎng)絡(luò)篩選模型并對其預(yù)測效果進(jìn)行了系統(tǒng)評價(第五章)。具體分述如下:
一、致病通路識別及其效應(yīng)估計的統(tǒng)計推斷模型研究(第二章)
在傳統(tǒng)“黑盒子”流行病學(xué)研究中,通常采用病例對照設(shè)計或隊列研究分析暴露危險因素與疾病的關(guān)聯(lián)性。其策
20、略是通過比較病例組與對照組之間某危險因子的暴露比例而計算OR(比如吸煙與肺癌之間的OR=6.5等)或比較暴露組與非暴露組之間的疾病發(fā)病率而計算RR(比如吸煙與肺癌之間的RR=5.5等),以闡明暴露與疾病的關(guān)聯(lián)強(qiáng)度。這種基于變量獨立假設(shè)的統(tǒng)計推斷方法(logistic回歸、Cox回歸等)只能提供危險因素與疾病之間的關(guān)聯(lián)性及其強(qiáng)度大小,并不能闡明危險因素通過“黑盒子”導(dǎo)致疾病結(jié)局的病因鏈及其致病通路。然而,在不明確暴露因素導(dǎo)致疾病發(fā)生、發(fā)展
21、與轉(zhuǎn)歸的致病通路或網(wǎng)絡(luò)的情況下,往往很難有效地預(yù)測和評估干預(yù)暴露因素的效果,且難以得出令人信服或可重復(fù)驗證的結(jié)論。鑒于此,流行病學(xué)家一直期望能夠打開“黑盒子”,并挖掘特定危險因子致病網(wǎng)絡(luò)或通路。
盡管病因網(wǎng)絡(luò)的概念早己被提出,但由于缺乏有效的致病通路識別及其效應(yīng)估計的統(tǒng)計推斷方法,流行病學(xué)家一直未能實現(xiàn)上述夙愿。為此,本研究在上述系統(tǒng)流行病學(xué)研究框架(圖1)下,遵循路徑分析的基本原理,構(gòu)建了識別致病通路并對其進(jìn)行統(tǒng)計學(xué)假設(shè)檢驗
22、的推斷方法。以病例對照研究為例,其基本理念是:設(shè)病例組中的特定通路為XD1βD1→XD2βD2→XD1…βDK→XDk+1,若該通路路徑系數(shù)乘積ΠKk=1βDk≠0,則表明暴露(或生物標(biāo)記)XD1可以通過該病因鏈將其效應(yīng)傳遞到生物標(biāo)記XDk+1,其效應(yīng)量為βD=ΠKk=1βDk;同理,對照組中該通路XC1βC1→XC2βC2→…XC1…βCk→XCk+1的效應(yīng)量為βc=ΠKk=1βCk;則該通路對疾病的貢獻(xiàn)可用統(tǒng)計量D=βD-βC=ΠK
23、k=1βDk-ΠKk=1βCk來測量。當(dāng)H0∶D=βD-βC=0成立時,表明上述通路對疾病無效應(yīng)。本研究將統(tǒng)計模擬與實例分析有機(jī)結(jié)合,對上述統(tǒng)計量進(jìn)行了系統(tǒng)科學(xué)的評價。
主要結(jié)果:
(1)致病通路識別的檢驗統(tǒng)計量
采取如下統(tǒng)計量構(gòu)建和檢驗策略來識別致病通路:
1)非參數(shù)bootstrap置信區(qū)間檢驗方法,其統(tǒng)計量PEM-D定義為: D=βD-βC=ΠβDk-KΠk=1βCk其中K為通路長度,表示該
24、通路中有K+1個節(jié)點(變量)和K條邊,βDk和βCk分別表示病例組與對照組通路中第尼個節(jié)點和第k+1個節(jié)點之間的標(biāo)準(zhǔn)化回歸系數(shù)(即路徑系數(shù))。采用百分位數(shù)bootstrap置信區(qū)間(percentile bootstrap confidenceinterval)以及偏差校正后的bootstrap置信區(qū)間(bias-corrected bootstrap confidenceinterval)進(jìn)行非參數(shù)檢驗,以檢驗H0∶D=βD-βC=0
25、是否成立。
2)漸進(jìn)正態(tài)分布統(tǒng)計量(PEM-UD):統(tǒng)計模擬表明,以下統(tǒng)計量UD=βD-βC√var(βD)+var(βC)近似服從正態(tài)分布,其中var(βD)和var(βC)分別表示βD和βC的方差,分別采用精確估計(the exact estimator)方法var(β)exact=ΠKk=1(s2βk十β2k)-ΠKk=1β2k、無偏估計(unbiased estimator)方法var(β)unbiased=ΠKk=1
26、β2k-ΠKk=1(β2k-s2βk)、多元delta估計(multivariate delta estimator)方法var(β)mult-delta=△cov(β1,β2,…,βk)△T(其中△=[(e)β/(e)β1,…,(e)β/(e)βk])和bootstrap方法進(jìn)行估計。
(2)統(tǒng)計模擬
針對上述統(tǒng)計量,在H0∶D=βD-βC=0成立的前提下遍歷不同樣本量(2),評估其犯第一類錯誤的概率是否穩(wěn)定在給定
27、的檢驗水準(zhǔn)α附近。在H1∶D=βD-βC≠0成立的條件下,設(shè)定不同樣本量(n),通路長度(K),效應(yīng)大?。é?βD-βC)以及路徑系數(shù)相關(guān)模式(即路徑系數(shù)向量的取值模式),評估統(tǒng)計量的檢驗效能。模擬結(jié)果顯示:
1)統(tǒng)計量PEM-D采用兩種bootstrap置信區(qū)間檢驗,統(tǒng)計量PEM-UD采用四種方法計算方差,在H0成立的前提下,當(dāng)樣本量達(dá)到200時,其犯第一類錯誤的概率均穩(wěn)定在給定的檢驗水準(zhǔn)(α=0.05)附近(表2.2)表明
28、所構(gòu)建的統(tǒng)計量具有良好的穩(wěn)定性。
2)對于上述六種情況,在H0不成立時,其模擬結(jié)果(見圖2.2-圖2.4)顯示:隨著樣本量和效應(yīng)δ的增加,統(tǒng)計量的檢驗效能均呈單調(diào)遞增趨勢;固定樣本量及效應(yīng)δ時,隨著通路長度K的增加,統(tǒng)計量仍然具有足夠高的檢驗效能,表明統(tǒng)計量檢驗效能不受通路長度的影響;固定樣本量及效應(yīng)δ時,隨著路徑系數(shù)增大,統(tǒng)計量檢驗效能有所降低,表明在路徑系數(shù)較大時需要更大的樣本量才能達(dá)到足夠高的檢驗效能??傮w而言,在上述六
29、種情形中百分位bootstrap方法、偏差校正的bootstrap方法、bootstrap估計方差法的穩(wěn)定性和檢驗效能均較好,尤其是偏差校正bootstrap置信區(qū)間的檢驗效能最高。
(3)實例分析
采用上述統(tǒng)計量PEM-D和PEM-UD,分析基于病例對照設(shè)計的急性髓性白血病(AML)分子流行病學(xué)數(shù)據(jù)(包含98例患者和35例對照個體的骨髓中T17細(xì)胞,Treg細(xì)胞和細(xì)胞轉(zhuǎn)化生長因子TGF-ββ的檢測數(shù)據(jù))。結(jié)果表明:
30、除精確估計法外,其余五種方法均發(fā)現(xiàn)通路Treg→TGF-ββ→Th17與AML具有關(guān)聯(lián)性(表2.3)。實驗性研究也早己證實,Treg、TGF-ββ和Th17均與AML有關(guān)聯(lián),且Th17細(xì)胞和Treg細(xì)胞在功能上具有相互抑制作用。我們的研究結(jié)果進(jìn)一步表明通路Treg→TGF-β→Th17對AML的發(fā)生具有重要意義。
結(jié)論:
統(tǒng)計量PEM-D和PEM-UD均具有良好的統(tǒng)計學(xué)性能,可用于識別和檢驗致病通路,其中bootst
31、rap非參數(shù)檢驗方法更加高效。
主要創(chuàng)新點:
構(gòu)建了基于路徑系數(shù)連乘積之差的致病通路識別檢驗統(tǒng)計量,為系統(tǒng)流行病學(xué)中致病通路識別提供了新方法。
二、無向網(wǎng)絡(luò)組間差異比較的假設(shè)檢驗方法研究(第三章)
比較和檢驗對比組間(病例組VS對照組、暴露組VS非暴露組、干預(yù)組VS非干預(yù)組)網(wǎng)絡(luò)的統(tǒng)計學(xué)差異,是系統(tǒng)流行病學(xué)研究中識別致病通路、闡明暴露因子或干預(yù)措施對疾病發(fā)生、發(fā)展與轉(zhuǎn)歸機(jī)制影響的核心任務(wù)。然而,目
32、前尚缺乏網(wǎng)絡(luò)比較的統(tǒng)計學(xué)檢驗方法。對于多數(shù)復(fù)雜疾病的致病網(wǎng)絡(luò)而言,其“節(jié)點”和“邊”的連續(xù)定量變化譜蘊(yùn)含著網(wǎng)絡(luò)差異的全部信息;因此,系統(tǒng)流行病學(xué)網(wǎng)絡(luò)的差異囊括了“節(jié)點”和“邊”的雙重差異,單純“節(jié)點”或單純“邊”的差異遠(yuǎn)不能代表其全部信息的差異。在構(gòu)建“對比組”間網(wǎng)絡(luò)差異比較的統(tǒng)計量時,必須同時包含“節(jié)點”和“邊”的差異;即,在統(tǒng)計量中,用對比組間網(wǎng)絡(luò)“節(jié)點平均量”的差來刻畫節(jié)點平均水平的組間差異,而用網(wǎng)絡(luò)節(jié)點間“邊變化”的差來刻畫節(jié)點
33、相互作用(邊)的差異。當(dāng)不明確或不考慮網(wǎng)絡(luò)中節(jié)點間的方向時,可根據(jù)圖1中無向網(wǎng)絡(luò)比較的統(tǒng)計量構(gòu)建方法,融合經(jīng)典統(tǒng)計量構(gòu)建策略(例如得分檢驗統(tǒng)計量,似然比檢驗統(tǒng)計量,wald檢驗統(tǒng)計量),綜合考慮節(jié)點和邊的信息,構(gòu)建相應(yīng)的無向網(wǎng)絡(luò)比較統(tǒng)計量。本章將借助得分檢驗統(tǒng)計量的理論構(gòu)建無向網(wǎng)絡(luò)比較的統(tǒng)計檢驗方法。其基本思想是,在上述“結(jié)構(gòu)拆分→數(shù)理整合”策略(圖1)中可不考慮方向差異。則兩“對比組”間網(wǎng)絡(luò)差異檢驗統(tǒng)計量的一般形式可簡化為Diff=(
34、DV∪DE)。
主要結(jié)果:
(1)無向網(wǎng)絡(luò)組間差異比較的統(tǒng)計量
令GD與GC分別表示兩對比組的網(wǎng)絡(luò),并假定GD與GC具有相同的拓?fù)浣Y(jié)構(gòu)(M個節(jié)點、K條邊);理論上,對比組間(病例組VS對照組、暴露組VS非暴露組、干預(yù)組VS非干預(yù)組)網(wǎng)絡(luò)節(jié)點取值和邊的強(qiáng)度之間的差異,可以表征致病效應(yīng)或干預(yù)效果。以病例對照研究為例,給定病例組與對照組的樣本量分別為nD和nC,當(dāng)原假設(shè)H0∶GD=GC成立時,兩組間的對應(yīng)網(wǎng)絡(luò)節(jié)點
35、總體均值相等,即μD=μC(i=1,…,M);同時兩組間各對應(yīng)邊的強(qiáng)度相等βDk=βCk(k=1,…,K)。根據(jù)得分檢驗(score test)思想,在H0∶GD=GC成立的前提下兩組樣本可合并為N=nD+nC;則對于個體l(l=1,2,…,N),定義Y1={1,l∈病例組(D)0,l∈對照組(C),其第i個點的取值為xli。則,節(jié)點xi對兩“對比組”間網(wǎng)絡(luò)差異貢獻(xiàn)(即效應(yīng)大?。┑牡梅譃镈Vi=∑Nl=1(Yi-Y-)xli,i=1,…
36、,M,從而,得到“節(jié)點差異效應(yīng)”得分向量DV=(Dv1,Dv2,…,DvM)T。類似的,第k條邊·(xi)-·(xj)對兩“對比組”間網(wǎng)絡(luò)差異貢獻(xiàn)(即效應(yīng)大?。┑牡梅譃镈Ek=∑NL=1(Y1-Y-)(xli-xil)(xlj-xij),k=1,…,K;從而,得到“邊差異效應(yīng)”得分向量為DE=(DE1,DE2,…,DEk)T。將“節(jié)點差異效應(yīng)”與“邊差異效應(yīng)”合并為“網(wǎng)絡(luò)差異效應(yīng)”得分向量D=(DVDE),該向量的協(xié)方差陣為∑=cov(
37、D)=(σpq)(M+K)×(M+K),p,q=1,2,…,(M+K),(M+K)為網(wǎng)絡(luò)中所有“節(jié)點數(shù)”與“邊數(shù)”之和。從而,將“節(jié)點信息”和“邊信息”整合到統(tǒng)計量NetDifM中
NetDifM=DTΣ-1D
其中,協(xié)方差矩陣∑可表示為分塊矩陣(ΣVΣVEΣVEΣE),其計算方法如下:1)對于∑V,p,q=1,2,…,M,σpq=∑Nl=1(Yl-Y-)2 cov(Xp,Xq),Xp=(x1p,x2p,…,xNp)
38、;2)對于∑E, p,q=M+1,M+2,…,M+K,σpq=ΣNl=1(Y1-Y-)2cov(Zp,Zq),Zp=(Xi-X-i)×(Xi-X-j);3)對于∑VE,p=1,2,…,M,q=M+1,M+2,…,M+Kσpq=∑Nl=1(Y1-Y-)2 cov(Xp,Zq)。
由得分檢驗理論推知,在大樣本情況下,在H∶GD=GC成立時,NetDifM服從自由度為M+K的卡方分布,即NetDifM~x2(K+ M)。樣本量較小時
39、也可采用permutation方法進(jìn)行假設(shè)檢驗。
(2)統(tǒng)計模擬
針對上述統(tǒng)計量,在H0∶GD=GC成立的前提下遍歷不同樣本量(n)以及網(wǎng)絡(luò)規(guī)模大小(M=10,20,40; K=21,45,54),評估其犯第一類錯誤的概率是否穩(wěn)定在給定的檢驗水準(zhǔn)α附近。在H0不成立的條件下,設(shè)定節(jié)點X=(X1,X2,…,XM)數(shù)據(jù)服從多元正態(tài)分布,模擬如下3種情形,以系統(tǒng)評估統(tǒng)計量的檢驗效能。情形1:兩網(wǎng)絡(luò)之間只有節(jié)點水平的差異;情
40、形2:網(wǎng)絡(luò)間只有邊(關(guān)聯(lián)強(qiáng)度)存在差異;情形3:網(wǎng)絡(luò)間同時存在節(jié)點水平與邊(關(guān)聯(lián)強(qiáng)度)的差異。
特別地,為進(jìn)一步評價統(tǒng)計量NetDifM對節(jié)點變量分布的穩(wěn)健性,令節(jié)點X=(X1,X2,…,XM)數(shù)據(jù)為非正態(tài)分布,在部分節(jié)點非正態(tài)(隨機(jī)選擇部分節(jié)點,令其為指數(shù)分布)和全部節(jié)點非正態(tài)(令全部節(jié)點為指數(shù)分布)兩種情況下,分別就上述3種情形進(jìn)行了系統(tǒng)的模擬研究。
模擬結(jié)果:1)在H0:GD=GC成立的前提下,針對組間網(wǎng)絡(luò)對應(yīng)
41、節(jié)點及邊差異之和所構(gòu)建的非參數(shù)permutation統(tǒng)計量VEWDM、只考慮兩組間邊差異的非參數(shù)permutation統(tǒng)計量Yates'D,和本章所構(gòu)建的卡方分布統(tǒng)計量NetDifM三種方法,模擬結(jié)果表明,在樣本量達(dá)到一定程度時三種方法的犯第一類錯誤的概率均穩(wěn)定在給定的檢驗水準(zhǔn)(α=0.05)附近(表3.1-表3.2),而卡方分布統(tǒng)計量NetDifM在樣本量相對較小時(n>200)即表現(xiàn)出良好的穩(wěn)定性。2)在H0不成立的條件下,給定單純
42、節(jié)點差異(如μD3-μC3=0.2等)、單純邊差異(如βD35-βC35=-0.2等)和節(jié)點與邊均存在差異(如μD8-μC8=0.2,βD57-βC57=0.2等)時,模擬結(jié)果(圖3.4-圖3.8)顯示,本章所構(gòu)建的統(tǒng)計量NetDifM與統(tǒng)計量VEWDM及Yates'D相比,始終具有最高的檢驗效能。3)特別地,在只存在節(jié)點差異時,正如所期望的那樣,統(tǒng)計量Yates'D失去檢驗效能,而統(tǒng)計量NetDifM仍然具有很高的檢驗效能。4)在節(jié)點
43、數(shù)據(jù)偏離正態(tài)分布時,本章所構(gòu)建的統(tǒng)計量NetDifM仍然具有最高的檢驗效能,表明NetDifM具有良好的穩(wěn)健性。
(3)實例分析
將所構(gòu)建的無向網(wǎng)絡(luò)差異檢驗的統(tǒng)計量NetDifM應(yīng)用于麻風(fēng)病致病網(wǎng)絡(luò)比較(706例麻風(fēng)病病例與514例健康對照),結(jié)果顯示該統(tǒng)計量具有合理性和實用性,分析結(jié)果符合生物學(xué)機(jī)制。同時,將統(tǒng)計量進(jìn)一步用于卵巢癌致病通路PI3K-AKT與Notch(C1亞型卵巢癌病人83例,C2-C6亞型168例
44、)的組間比較,也發(fā)現(xiàn)了符合生物學(xué)機(jī)制的組間差異。
結(jié)論:
統(tǒng)計量NetDifM不僅具有良好的穩(wěn)定性、檢驗效能和穩(wěn)健性,而且具有較高的實用性,為系統(tǒng)流行病學(xué)研究中無向網(wǎng)絡(luò)比較提供了良好的統(tǒng)計學(xué)檢驗方法。
主要創(chuàng)新點:
針對無向網(wǎng)絡(luò)的特征,采用“節(jié)點信息與邊信息整合得分”的融合策略,構(gòu)建了網(wǎng)絡(luò)組間差異比較的統(tǒng)計量NetDifM,為系統(tǒng)流行病學(xué)無向網(wǎng)絡(luò)比較提供了新方法。
三、有向網(wǎng)絡(luò)組間差異比
45、較的假設(shè)檢驗方法研究(第四章)
上述第三章所構(gòu)建的無向網(wǎng)絡(luò)比較的統(tǒng)計量NetDifM只注重了節(jié)點差異和邊差異信息,尚未考慮方向信息。然而在系統(tǒng)流行病學(xué)網(wǎng)絡(luò)比較中,網(wǎng)絡(luò)中的方向信息會提供更有價值的致病路徑及暴露(或干預(yù))的作用機(jī)制。從而為探討疾病發(fā)生、發(fā)展和轉(zhuǎn)歸機(jī)制,評價干預(yù)措施,尋找精準(zhǔn)藥物靶點等提供重要依據(jù)。因此,本章將進(jìn)一步構(gòu)建有向網(wǎng)絡(luò)差異比較的假設(shè)檢驗方法。其基本思想是:對于有向網(wǎng)絡(luò),網(wǎng)絡(luò)差異絕非僅僅是其節(jié)點和邊兩部分差
46、異的簡單合并,還應(yīng)充分體現(xiàn)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)所蘊(yùn)含的方向信息,即調(diào)控網(wǎng)絡(luò)內(nèi)“邊”的箭頭指向及“上游節(jié)點”對“下游節(jié)點”的調(diào)控權(quán)重。為此,在構(gòu)建有向網(wǎng)絡(luò)比較的統(tǒng)計量時,需將網(wǎng)絡(luò)“節(jié)點”、“邊”和“方向”差異信息融為一體,將節(jié)點信息、邊信息和方向信息的差值(效應(yīng))DV、DE和Dl整合為兩“對比組”間網(wǎng)絡(luò)差異(效應(yīng))的統(tǒng)計量Diff=(DV∪DE∪D1)。
主要結(jié)果:
(1)有向網(wǎng)絡(luò)組間差異比較的統(tǒng)計量
令GD與GC分
47、別表示兩對比組的網(wǎng)絡(luò),V(GD)與E(GD)分別表示GD中的節(jié)點集合與有向邊集合。當(dāng)原假設(shè)H0∶GD=GC成立時,兩組間的對應(yīng)網(wǎng)絡(luò)節(jié)點總體均值相等,即μDi=μCi(i=1,…,M);同時兩組間各對應(yīng)邊的強(qiáng)度及方向相同βDk=βCK(k=1,…,K)。用—XDiXDj表示節(jié)點XDi與XDj之間的有向邊XDiβDij→xDj,其中βDij表示XDi對XDj的調(diào)控強(qiáng)度。令VDi表示節(jié)點XDi的子代節(jié)點數(shù)目,將XDi的權(quán)重定義為WDi=VDi
48、/∑lev(GD)VD1,其含義為XDi的子代節(jié)點數(shù)占全部節(jié)點子代節(jié)點總數(shù)的比例。令V=V(GD)∪ V(GC),E=E(GD)∪E(GC),則,本章構(gòu)建如下有向網(wǎng)絡(luò)組間差異比較的檢驗統(tǒng)計量WNES=1/KΣXkeV(1+wDk+wCk/2)((X)Dk-(X)Ck/√var((X)Dk)+var((X)Ck))2+1/MΣ/xixj∈E((β)Dij-(β)Cij/√var((β)Dij)+var(β)Cij)2其中,WDk,(X)D
49、k,(β)Dij分別表示網(wǎng)絡(luò)GD中XDi相應(yīng)的權(quán)重、樣本均值以及βDij的估計值;WCk,(X)Ck,(β)Cij分別為網(wǎng)絡(luò)GC中相應(yīng)的變量。需注意的是K與M分別為節(jié)點集V與邊集E的數(shù)目,如果節(jié)點Xk(或邊/XiXj)在GD中存在,但在GC中不存在,則將(X)Ck與其方差(或(β)Cij與其方差)視為0,反之亦然。統(tǒng)計量中采用的加權(quán)形式為a+(wdK+wC)/2,也可以替換為1ogb(b+(wdK+wcK/2),其中α與b越小,表示網(wǎng)絡(luò)
50、拓?fù)浣Y(jié)構(gòu)信息(上、下游節(jié)點間的調(diào)控關(guān)系)在統(tǒng)計量中占的比重越大。采用permutation方法進(jìn)行假設(shè)檢驗。
(2)統(tǒng)計模擬
針對上述統(tǒng)計量WNES,在H0:GD=GC成立的前提下,遍歷不同樣本量(n)、網(wǎng)絡(luò)規(guī)模大小(M=12,35,K=15,79)以及網(wǎng)絡(luò)結(jié)構(gòu)(箭頭多少及方向),評估統(tǒng)計量犯第一類錯誤的概率是否穩(wěn)定在給定的檢驗水準(zhǔn)α附近。在H0不成立的條件下,給定三種網(wǎng)絡(luò)方向加權(quán)方式(無方向加權(quán)、1+(WDk+WD
51、k)/2,log2(2+(wD+ wC)/2)),模擬如下5種情形,以系統(tǒng)評估統(tǒng)計量的檢驗效能。情形1:只有節(jié)點水平的改變;情形2:只有邊強(qiáng)度值的改變;情形3:同時有節(jié)點水平與邊強(qiáng)度值的改變,變化的點為上游節(jié)點;情形4:節(jié)點與邊數(shù)值的改變與情形3相同,變化的點為下游節(jié)點;情形5:網(wǎng)絡(luò)中僅有邊方向改變。
模擬結(jié)果顯示:1)在H0∶GD=GC成立時,本章所構(gòu)建的統(tǒng)計量WNES在不同網(wǎng)絡(luò)結(jié)構(gòu)以及網(wǎng)絡(luò)規(guī)模大小的情況下,犯第一類錯誤的概
52、率均穩(wěn)定在給定的檢驗水準(zhǔn)(α=0.05)附近(表4.1),表明該統(tǒng)計量具有良好的穩(wěn)定性。2)在H0不成立的前提下,統(tǒng)計量WNES的檢驗效能模擬結(jié)果(圖4.3-圖4.6)顯示:當(dāng)只存在網(wǎng)絡(luò)節(jié)點差異時(情形1),只包含節(jié)點差異信息的統(tǒng)計量NS與同時包含“節(jié)點信息、邊信息和方向信息”的統(tǒng)計量WNES具有相同的檢驗效能,表明此情形下所構(gòu)建的統(tǒng)計量WNES穩(wěn)健性良好;當(dāng)只存在網(wǎng)絡(luò)邊強(qiáng)度值改變時(情形2),WNES與只包含邊信息的統(tǒng)計量ES相比,其
53、檢驗效能略低,表明此情形下,統(tǒng)計量WNES會受到無效冗余點信息的影響;當(dāng)同時存在節(jié)點水平與邊強(qiáng)度改變時(情形3與4),WNES的檢驗效能明顯高于NS與ES的檢驗效能;以上結(jié)果表明WNES可以同時檢驗節(jié)點與邊的差異并且檢驗效能足夠高。在情形5,WNES具有足夠高的檢驗效能,表明WNES能夠檢驗網(wǎng)絡(luò)中邊方向的改變。模擬結(jié)果還顯示,WNES采用α+(WDk+WCk)/2與logb(b+(WDk+WCk)/2)兩種加權(quán)方式時,檢驗效能都高于無加
54、權(quán)的統(tǒng)計量檢驗效能,表明這兩種加權(quán)方式都能將網(wǎng)絡(luò)中上、下游節(jié)點間的位置信息融入到統(tǒng)計量中,提高檢驗效能,進(jìn)一步說明了對節(jié)點進(jìn)行加權(quán)是必要且合理的。
(3)實例分析
將所構(gòu)建的有向網(wǎng)絡(luò)差異檢驗的統(tǒng)計量WNES應(yīng)用于基于病例對照設(shè)計的肺癌致病網(wǎng)絡(luò)、麻風(fēng)病致病網(wǎng)絡(luò)以及急性髓性白血病致病網(wǎng)絡(luò)比較,結(jié)果顯示,1) WNES可以檢驗出麻風(fēng)病相關(guān)基因網(wǎng)絡(luò)的差異;2)WNES識別出免疫相關(guān)的Foxp3、IL-10、Th17與TGF-
55、β在患白血病與正常情況兩種狀態(tài)下調(diào)控網(wǎng)絡(luò)的差異;3)WNES發(fā)現(xiàn)Wnt經(jīng)典信號通路中35個基因構(gòu)成的網(wǎng)絡(luò)的改變與肺癌的發(fā)生相關(guān)(表4.2)。
結(jié)論:
統(tǒng)計量WNES能夠同時檢驗網(wǎng)絡(luò)中節(jié)點與邊強(qiáng)度及其方向的差異,不僅具有良好的穩(wěn)定性、檢驗效能,而且具有較高的實用性,為系統(tǒng)流行病學(xué)研究中有向網(wǎng)絡(luò)比較提供了高效的新方法。
主要創(chuàng)新點:
針對有向網(wǎng)絡(luò)的“邊的方向性差異”,借助于“生物群體家系譜圖中,后代子
56、孫越多的個體對生物群體的繁衍貢獻(xiàn)越大”的生物學(xué)現(xiàn)象,巧妙地定義了網(wǎng)絡(luò)內(nèi)上游節(jié)點對下游節(jié)點的調(diào)控權(quán)重,構(gòu)建了“節(jié)點”、“邊”和“方向”差異融為一體的有向網(wǎng)絡(luò)比較的統(tǒng)計量WNES,提供了有向網(wǎng)絡(luò)比較的新方法。
四、致病交互網(wǎng)絡(luò)篩選策略方法研究及其預(yù)測效果評價(第五章)
對復(fù)雜疾病而言,研究不同對比組(病例組VS對照組、暴露組VS非暴露組、干預(yù)組VS非干預(yù)組)間各生物標(biāo)記之間相互關(guān)系的差異將有利于揭示潛在致病機(jī)制、預(yù)測藥物
57、脫靶效應(yīng)、發(fā)展多靶點抗癌藥物以及評價干預(yù)措施作用機(jī)制。
上述對比分析的實質(zhì)是從復(fù)雜致病網(wǎng)絡(luò)中篩選出對結(jié)局或干預(yù)效果有貢獻(xiàn)的生物標(biāo)記之間的致病交互子網(wǎng)絡(luò)。然而,在復(fù)雜疾病致病網(wǎng)絡(luò)中,暴露(或干預(yù))以及病因通路上的生物標(biāo)記之間的作用往往是錯綜復(fù)雜的,不僅存在線性效應(yīng),還廣泛存在著形式復(fù)雜、分布不清的非線性效應(yīng)。因此,從復(fù)雜致病網(wǎng)絡(luò)中篩選出對疾病發(fā)生、發(fā)展與轉(zhuǎn)歸結(jié)局有效應(yīng)的生物標(biāo)記線性或非線性交互效應(yīng),是闡明復(fù)雜疾病致病機(jī)制的核心。
58、目前,在生物網(wǎng)絡(luò)組間比較中,往往是比較生物標(biāo)記之間的線性相關(guān)差異性,而忽略了廣泛存在的非線性相關(guān)差異。此外,多數(shù)方法無法調(diào)整協(xié)變量的混雜效應(yīng)。
為此,本章提出了一種基于聯(lián)合密度估計的高維網(wǎng)絡(luò)差異分析方法并將其進(jìn)一步應(yīng)用于構(gòu)建疾病的判別預(yù)測模型(JDINAC)。其基本思想是:以病例對照設(shè)計為例,令Y表示結(jié)局變量,Y=1表示病例組,Y=0表示對照組,fij與gij分別表示兩個生物標(biāo)記xi與xj在病例組與對照組的聯(lián)合密度,即,((x
59、i,xj)|Y=1)~fij,((xi,xj)|Y=0)~gij。則,可用ln(fij(xi,xj)/gij(xi,xj))來表征兩個標(biāo)記(xi,xj)的交互關(guān)聯(lián)性在病例組與對照組之間的差異。JDINAC方法不需要假設(shè)生物標(biāo)記數(shù)據(jù)服從某種已知參數(shù)分布,也不需要假定他們呈線性關(guān)系。既可提高網(wǎng)絡(luò)差異比較的準(zhǔn)確性,又可提高疾病判別預(yù)測的準(zhǔn)確性。
主要結(jié)果:
(1)統(tǒng)計模型
以病例對照設(shè)計為例,假定每個個體均有p個
60、生物標(biāo)記測量值(例如基因表達(dá)水平、甲基化程度等),對于個體l(l=1,2,…,n),定義Y1={0l∈class01l∈class1,其第i個標(biāo)記的測量值為xli。構(gòu)建JDINAC模型如下:logit(P)=α0+sΣs=lαsZs+pΣi=lpΣj>iβijinfij(xi,xj)/gij(xi,xj),pΣi=lpΣj>i|βij|≤c,c>0,其中,Zs(s=1,…,S)表示協(xié)變量(如年齡、性別等),fij與gij分別表示生物標(biāo)記
61、xi與xj在病例組與對照組的聯(lián)合密度,即,((xi,xj)|Y=1)~fij,((xi,xj)|Y=0)~ gij。若βij≠0,表示兩個標(biāo)記(xi,xj)的關(guān)聯(lián)性在病例組與對照組之間存在差異。在高維情況下,生物標(biāo)記對(xi,xj)的數(shù)目遠(yuǎn)大于樣本量,此時利用厶范數(shù)懲罰方法估計β:(β)=argλmin{∑nl=1((1-Yl)(αTZl+βTΓl)+1n(1+exp(-αTZl-βTΓl)))+λ||β||1},其中,λ為懲罰參數(shù),α
62、=(α0,α1,…,αs)T, Zl=(1,Z1,…,Zs)T,β=vec(β)ijj>i,Γl=vec(lnfj(xi,xj)/gij(xi,xj))j>i,vec(·)為矩陣?yán)彼阕印DINAC模型具體算法如下:Step1.將樣本D={(Yl,Xl),l=1,…,n)隨機(jī)分成兩部分:D=(D1,D2)。Step2.利用第一部分樣本D1,估計聯(lián)合密度函數(shù)(f)ij(xi,xj)與(g)ij(xi,xj),i,j=1,…,p,j>i。
63、Step3.利用第二部分樣本D2,擬合基于厶懲罰的logistic回歸模型logit(P)=α0+s∑s=1αsZs十p∑i=lp∑j>i∞ijln(f)(xi,xj)/(xi,xj),通過交叉驗證選擇最佳懲罰參數(shù)。Step4.將Step1~Step3重復(fù)T次,從而得到(β)ij,t與結(jié)局概率(P)t,t=1,2,…,T。Step5.計算(P)=1/TΣTt=1(P)1作為最終結(jié)局概率;計算生物標(biāo)記對(xi,xj)的權(quán)重Wij=∑Tt=
64、1I((β)ij,t≠0),i,j=1,…,p,j>i;其中I(·)為示性函數(shù)。
(2)統(tǒng)計模擬
本章分以下4種情形進(jìn)行了模擬,情形1與情形2中生物標(biāo)記之間的關(guān)聯(lián)性均為線性相關(guān),情形1設(shè)置效應(yīng)值較大,情形2效應(yīng)值較小。情形3:生物標(biāo)記對(xi,xj)在兩組網(wǎng)絡(luò)中Pearson相關(guān)系數(shù)相同,但其聯(lián)合密度不同。情形4:生物標(biāo)記之間存在非線性關(guān)系。針對以上4種情形,采用真陽性率(TPR)、真陰性率(TNR)以及正確發(fā)現(xiàn)率(
65、TDR),來評價JDINAC與其他3種方法(DiffCorr,DEDN,cPLR)在網(wǎng)絡(luò)差異分析方面的優(yōu)劣。采用ROC曲線與分類錯誤率來比較JDINAC與隨機(jī)森林、樸素貝葉斯、oPLR與cPLR的判別分類準(zhǔn)確性。模擬結(jié)果顯示:1)在網(wǎng)絡(luò)差異分析方面,JDINAC可靠性高,幾乎在所有情形下都具有最高的TPR,TNR與TDR。在4種模擬情形下JDINAC的TDR分別為93.7%,95.6%,88.3%,99.9%,尤其在情形3與情形4明顯高
66、于其它3種方法DiffCorr(81.3%,85%,7.5%,3.8%),DEDN(33.5%,16.5%,2.1%,5%),cPLR(19.8%,25.6%,53.6%,0.7%),(Table5.1)。這表明JDINAC確實可以檢測出網(wǎng)絡(luò)中非線性關(guān)系的變化。2)在分類方面,ROC曲線與分類錯判率皆表明JDINAC明顯比其他4種方法(RF, NB,cPLR,oPLR)判別分類更準(zhǔn)確(圖5.4,表5.2)。
(3)實例分析
67、r> 實例數(shù)據(jù)來自TCGA數(shù)據(jù)庫中114例乳腺癌病人的癌組織以及匹配的正常組織的基因表達(dá)數(shù)據(jù)。本研究選取KEGG數(shù)據(jù)庫中癌癥通路列出的373個基因,分析癌組織與正常組織兩組基因網(wǎng)絡(luò)的差異。每組隨機(jī)選取50個樣本作為預(yù)測集,來評價判別分類準(zhǔn)確性。結(jié)果顯示:JDINAC檢測出的排序靠前的網(wǎng)絡(luò)差異基因?qū)Γc已有實驗結(jié)果相一致,并且選出的大部分關(guān)鍵基因節(jié)點也與乳腺癌細(xì)胞的發(fā)生、生長或轉(zhuǎn)移密切相關(guān)。在判別分類準(zhǔn)確性方面,JAINAC與oPLR方
68、法的錯判率為1%,而RF、NB與cPLR的錯判率分別為19%,2%,17%(表5.6),表明JDINAC具有良好的實用性。
結(jié)論:
本章建立了基于聯(lián)合密度估計的致病交互網(wǎng)絡(luò)篩選策略方法,該方法不僅能篩選出網(wǎng)絡(luò)中生物標(biāo)記之間的線性交互效應(yīng),而且能篩選出其非線性交互效應(yīng)?;谒崛〉慕换バ?yīng)而構(gòu)建的疾病判別預(yù)測模型優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法。
主要創(chuàng)新點:
1)基于非參數(shù)聯(lián)合密度估計,實現(xiàn)了從網(wǎng)絡(luò)中篩選出
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 流行病學(xué)統(tǒng)計方法
- 流行病學(xué)常用統(tǒng)計方法
- 流行病學(xué)的新方法在藥物流行病學(xué)的應(yīng)用
- 流行病學(xué)實驗流行病學(xué)
- 藥物流行病學(xué)及其研究方法
- 流行病學(xué)常用統(tǒng)計指標(biāo)
- 流行病學(xué)研究方法總括
- 現(xiàn)代流行病學(xué)研究方法
- 描述流行病學(xué)方法
- 分析流行病學(xué)方法
- 流行病學(xué)傳染病流行病學(xué)
- 流行病學(xué)的研究方法總括
- 流行病學(xué)研究方法與應(yīng)用課程大綱
- 流行病學(xué)研究方法與應(yīng)用課程大綱
- 流行病學(xué)
- 流行病學(xué)
- 人工神經(jīng)網(wǎng)絡(luò)在流行病學(xué)中的應(yīng)用研究.pdf
- 流行病學(xué)鐘崇洲描述流行病學(xué)
- 流行病學(xué)研究方法與應(yīng)用課程大綱
- 藥物流行病學(xué)研究方法
評論
0/150
提交評論