

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、宏基因組學(xué),廣泛指研究直接來(lái)自環(huán)境的基因材料的學(xué)科,被認(rèn)為是微生物發(fā)展中的一個(gè)里程碑。它不僅僅使得對(duì)未培養(yǎng)或者不可培養(yǎng)的微生物的研究成為可能,也使得研究同一環(huán)境中的微生物在自然條件下的相互作用以及微生物和環(huán)境條件的相互作用成為可能。隨著測(cè)序技術(shù)的迅速發(fā)展,大量的宏基因組測(cè)序數(shù)據(jù)不斷積累,包括一些標(biāo)簽基因,如16S rRNA基因,以及全基因組測(cè)序數(shù)據(jù)。
現(xiàn)在,一些與人類(lèi)、土壤和海洋生命有關(guān)的大型宏基因組項(xiàng)目正在進(jìn)行,持續(xù)產(chǎn)生
2、大量的數(shù)據(jù),亟需新的高效分析方法的產(chǎn)生。宏基因組研究中的主要問(wèn)題包括:1),理解在不同條件下微生物的聚集;2),比較不同的群落;3),理解微生物相互之間,以及微生物與環(huán)境因素之間的關(guān)聯(lián)。
本文針對(duì)宏基因組數(shù)據(jù)分析中的一些問(wèn)題展開(kāi),大致介紹了宏基因組學(xué),包括一些基本概念,研究對(duì)象,主要問(wèn)題等等,并針對(duì)下面兩類(lèi)問(wèn)題,進(jìn)行了具體的探討。
1.群落比較
Beta多樣性,也即衡量群落之間的差別,在許多研究
3、領(lǐng)域,尤其是生態(tài)學(xué)研究中,具有重要的意義。研究者已經(jīng)提出了一些統(tǒng)計(jì)方法來(lái)度量Beta多樣性,這些將在第2章中詳細(xì)談到。
在這些方法中,UniFrac和加權(quán)的UniFrac近幾年來(lái)應(yīng)用廣泛?;谝粋€(gè)以?xún)蓚€(gè)群落中所有元素為葉節(jié)點(diǎn)的系統(tǒng)發(fā)生樹(shù),UniFrac這樣定義兩個(gè)群落之間的距離:對(duì)于系統(tǒng)發(fā)生樹(shù)中的所有枝,考查其指向的葉節(jié)點(diǎn)是否只存在于同一群落,那些葉節(jié)點(diǎn)只存在于同一群落的枝的枝長(zhǎng)和,占整個(gè)樹(shù)的枝長(zhǎng)和的比例,就定義為UniF
4、rac距離。UniFrac的概念非常容易理解,直觀來(lái)講,就是計(jì)算了僅被一個(gè)群落占據(jù)的進(jìn)化歷史的相對(duì)大小,這個(gè)量越大,說(shuō)明兩個(gè)群落中獨(dú)立的進(jìn)化過(guò)程越多。加權(quán)UniFrac(w-UniFrac)方法,是在UniFrac的基礎(chǔ)上,將序列的豐度(數(shù)量)納入考慮,它能夠區(qū)分物種豐度的差別。在計(jì)算中,W-UniFrac按照每條枝指向的葉節(jié)點(diǎn)中來(lái)自?xún)蓚€(gè)群落的比例,給每條枝加權(quán)重。然而,W-UniFrac的計(jì)算不考慮權(quán)重的方差,這可能給考察群落之間真實(shí)
5、的相互關(guān)系造成困難。
考慮系統(tǒng)發(fā)生樹(shù)的枝i.假定原假設(shè)是所有個(gè)體的標(biāo)記隨機(jī)分布于系統(tǒng)發(fā)生樹(shù)的葉節(jié)點(diǎn),那么,我們指出Ai,枝i指向的序列在群落A中的數(shù)目,在原假設(shè)下服從參數(shù)為(mi,m,AT)的超幾何分布,其中mi=Ai+Bi表示枝i指向的序列的總數(shù),m=AT+BT表示群落A,B中所有序列的總數(shù)。經(jīng)過(guò)一系列推導(dǎo),我們?yōu)橄到y(tǒng)發(fā)生樹(shù)的枝i,提出一個(gè)新的方差調(diào)整的權(quán)重(varianceadjusted weighted,VAW),
6、即
數(shù)值模擬和實(shí)際數(shù)據(jù)應(yīng)用,都表明VAW-UniFrac能夠較好的衡量群落之間的距離,它不僅考慮群落中物種的組成,還將各物種的豐度信息納入考慮。
2.在兩類(lèi)樣本中,識(shí)別具有顯著豐度差別的操作分類(lèi)單元
微生物數(shù)據(jù)分析中的一個(gè)重要問(wèn)題,是在不同的環(huán)境/生物條件下,識(shí)別具有顯著豐度差別的操作分類(lèi)單元(Operational Taxonomic Unit,OTU)。這里的操作分類(lèi)單元,通常是通過(guò)對(duì)微生物
7、的標(biāo)簽基因序列按一定的相似度歸類(lèi)得到的,可以認(rèn)為是比物種更細(xì)化的生物分類(lèi)單元。針對(duì)這類(lèi)問(wèn)題的方法十分有限,主要包括應(yīng)用兩樣本t檢驗(yàn)或Wilcoxon秩和檢驗(yàn)的方法,檢驗(yàn)兩種條件下,給定OTU的平均差別。因?yàn)橛行㎡TU非常稀疏,只在很少的樣本中出現(xiàn),因此可以用Fisher精確檢驗(yàn)方法來(lái)檢驗(yàn)分類(lèi)單元出現(xiàn)與否是否有顯著差別。White等于2009提出將Fisher精確檢驗(yàn)和t檢驗(yàn)結(jié)合起來(lái),在進(jìn)行分析前,先選定一個(gè)適當(dāng)?shù)拈撝担袿TU分為“稀少
8、組”和“常見(jiàn)組”兩類(lèi),然后分別應(yīng)用Fisher精確檢驗(yàn)和t檢驗(yàn)進(jìn)行檢驗(yàn)。這些方法都是對(duì)每一個(gè)單元分別檢驗(yàn),而不考慮每一樣本中各OTU組成成分?jǐn)?shù)據(jù)的和為1。
尋找有顯著豐度差別的OTUs,這個(gè)問(wèn)題很類(lèi)似于基因表達(dá)研究中,尋找異常表達(dá)基因的問(wèn)題。然而作為微生物組成數(shù)據(jù),數(shù)據(jù)的特點(diǎn)有所不同,因此需要新的統(tǒng)計(jì)方法。首先,對(duì)給定的OTU,其在各樣本中數(shù)目的變化可能很大,而且大部分的OTUs只出現(xiàn)于很小一部分樣本中。這使得數(shù)據(jù)表中有大
9、量的零。第二,數(shù)據(jù)在列方向上不是獨(dú)立的。對(duì)OTU數(shù)目數(shù)據(jù),每一列的和,表示一個(gè)樣本中OTUs的總數(shù),由測(cè)序過(guò)程和測(cè)序深度決定。因?yàn)椴煌瑯颖竞腛TU總數(shù)不同,所以同一行的數(shù)據(jù)不具可比性。若將數(shù)目數(shù)據(jù),轉(zhuǎn)化為組成成分?jǐn)?shù)據(jù),即在總數(shù)中所占的百分比,則每列的和為1.第三,因?yàn)榉浅O∈璧腛TUs在樣本較少的情況下,是很難觀察到的,因此我們的觀察數(shù)據(jù)往往是零截?cái)嗟摹R簿褪钦f(shuō),總有一些實(shí)際存在的OTU,在樣本中沒(méi)有出現(xiàn)。
本文中,我們
10、提出了一種新的識(shí)別具有顯著豐度差別的OTUs的經(jīng)驗(yàn)貝葉斯方法。為了解決過(guò)度分散和存在大量稀少OTUs的問(wèn)題,我們提出使用Beta-Beta-Binomial來(lái)對(duì)觀察到的OTUs計(jì)數(shù)數(shù)據(jù)進(jìn)行建模。而為了解決觀察數(shù)據(jù)都是零截?cái)嗟膯?wèn)題,使用截?cái)喔怕史植?。大量的模擬表明,與t檢驗(yàn),Wilcoxon秩和檢驗(yàn)和Fisher精確檢驗(yàn)相比,新的經(jīng)驗(yàn)貝葉斯方法具有更大的功效,能夠較準(zhǔn)確的估計(jì)FDR。另外,我們還將這一方法用于一個(gè)吸煙與不吸煙者喉嚨微生物數(shù)
11、據(jù)集,并得到了具有生物意義的結(jié)果。
本文的組織結(jié)構(gòu)如下:
在第一章中,我們簡(jiǎn)要介紹了宏基因組學(xué),解釋了一些基本概念,尤其是操作分類(lèi)單元(operational taxonomic units,OTUs),最后介紹了宏基因組學(xué)的一些主要研究領(lǐng)域和問(wèn)題。
在第二章中,集中討論群落比較的問(wèn)題。我們將現(xiàn)有的比較群落的方法分為兩類(lèi):“基于OTU”和“基于系統(tǒng)發(fā)生”的方法,之后我們回顧了群落比較中的幾種經(jīng)典
12、方法,并主要針對(duì)UniFrac和加權(quán)UniFrac展開(kāi)研究,提出一種新的方法,稱(chēng)為“方差調(diào)整的加權(quán)UniFrac”(VAW-UniFrac)。為了檢驗(yàn)VAW-UniFrac的效果,我們首先進(jìn)行了一系列模擬,發(fā)現(xiàn)其總是比W-UniFrac更有效,當(dāng)個(gè)體來(lái)自不均勻分布時(shí),VAW-UniFrac也比UniFrac表現(xiàn)更好。另外,將三種方法應(yīng)用于3個(gè)大型的16S rRNA基因數(shù)據(jù)集,包括人類(lèi)皮膚微生物群落,老鼠腸道群落,來(lái)自鹽水湖的土壤和沉積物
13、微生物群落,和一個(gè)熱帶雨林普查數(shù)據(jù)。模擬和實(shí)際數(shù)據(jù)的應(yīng)用都表明VAW-UniFrac可以很好的度量群落間的距離,將物種組成和物種豐度信息都納入考慮。
在第三章中,我們討論尋找兩類(lèi)樣本組中,具有顯著豐度差別的OTUs。我們提出了一種經(jīng)驗(yàn)貝葉斯方法,來(lái)識(shí)別在兩類(lèi)樣本中,OTUs的豐度是否有顯著差別.為了考慮過(guò)度分散,存在大量稀少OTUs,以及觀察數(shù)據(jù)都是零截?cái)嗟膯?wèn)題,建立了Beta-Beta-Binomial模型并引入截?cái)喔怕?/p>
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基因組數(shù)據(jù)分析的信號(hào)處理方法研究.pdf
- 真菌宏基因組的靶向探針技術(shù)和樣本數(shù)據(jù)分析.pdf
- 宏基因組樣本分類(lèi)方法研究.pdf
- 宏基因組測(cè)序講解
- 宏基因組分類(lèi)分析方法的研究和應(yīng)用.pdf
- 宏基因組文庫(kù)中Ⅰ型聚酮合酶基因的克隆及分析.pdf
- 13769.宏基因組的序列拼接算法研究
- 基于宏基因組編碼的個(gè)體特征識(shí)別研究.pdf
- 基于嗜耐鹽菌基因組分析與深海宏基因組文庫(kù)的酯酶研究.pdf
- 腸道菌群與冠心病的宏基因組關(guān)聯(lián)分析.pdf
- 鼠腸道病毒宏基因組學(xué)研究.pdf
- 宏基因組文加中鹵化酶及酯酶的篩選與分析.pdf
- 川牛膝全基因組高通量測(cè)序及初步數(shù)據(jù)分析.pdf
- 近海細(xì)菌多相分類(lèi)和基因組研究以及深海沉積物宏基因組分析.pdf
- 數(shù)據(jù)分析的統(tǒng)計(jì)方法選擇小結(jié)
- 宏基因組學(xué)方法在環(huán)境微生物生態(tài)及基因查找中的應(yīng)用研究.pdf
- 寄養(yǎng)金華仔豬腸道微生物的宏基因組研究.pdf
- 基于De Bruijn圖的宏基因組序列組裝算法研究.pdf
- 式根島海綿宏基因組文庫(kù)活性物質(zhì)研究.pdf
- 基于數(shù)據(jù)降維技術(shù)的全基因組區(qū)域化關(guān)聯(lián)分析統(tǒng)計(jì)推斷方法研究.pdf
評(píng)論
0/150
提交評(píng)論