基于高通量測(cè)序的微生物基因組學(xué)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩91頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著高通量測(cè)序技術(shù)的快速發(fā)展,基因組測(cè)序的通量更高、測(cè)序時(shí)間和成本不斷下降,使得其被廣泛應(yīng)用于微生物的基因組學(xué)研究。目前已經(jīng)完成基因組測(cè)序的微生物主要是模式微生物、特殊微生物和醫(yī)用微生物。后基因組學(xué)研究為從本質(zhì)上認(rèn)識(shí)微生物及改造微生物帶來(lái)質(zhì)的飛躍。然而,高通量測(cè)序數(shù)據(jù)的爆發(fā)式增長(zhǎng)給數(shù)據(jù)的分析,尤其是全序的組裝帶來(lái)了困難。如何從海量的數(shù)據(jù)中分析出需要的信息是當(dāng)前最大的挑戰(zhàn)。
  基因組研究包括兩個(gè)方面的內(nèi)容:以全基因組測(cè)序?yàn)槟繕?biāo)的結(jié)

2、構(gòu)基因組學(xué)和以基因功能鑒定為目標(biāo)的功能基因組學(xué),也即后基因組研究。高通量測(cè)序能夠完成包括全基因組、轉(zhuǎn)錄組、宏基因組在內(nèi)的多種測(cè)序,并為后基因組學(xué)的分析帶來(lái)新的方法。
  目前主流的高通量測(cè)序平臺(tái)有:Roche454、Illumina的Hiseq及Miseq、Life的IonTorrent。Illumina的高通量測(cè)序系統(tǒng)是市場(chǎng)上占有率最高的,其優(yōu)點(diǎn)是準(zhǔn)確度高,通量大,而缺點(diǎn)是運(yùn)行時(shí)間長(zhǎng)、讀長(zhǎng)短。Roche454以其讀長(zhǎng)最長(zhǎng)而著稱,

3、但是準(zhǔn)確度不夠高,測(cè)序成本高。IonTorrent測(cè)序速度最快。
  全基因組測(cè)序?qū)θ媪私庖粋€(gè)物種的分子進(jìn)化、基因組成和基因調(diào)控等有著非常重要的意義。但是目前成熟的高通量測(cè)序都是以隨機(jī)打斷基因組然后測(cè)短片段為主。要獲得全基因組就必須對(duì)高通量測(cè)序的數(shù)據(jù)進(jìn)行組裝,即將測(cè)序數(shù)據(jù)用計(jì)算機(jī)程序按照重疊部分進(jìn)行重構(gòu),還原出基因組的全序。目前已有大量的組裝軟件被開發(fā)出來(lái)。這些軟件根據(jù)不同測(cè)序平臺(tái)的數(shù)據(jù)特點(diǎn)使用不同的算法。由于重復(fù)序列的干擾,現(xiàn)

4、在的組裝軟件往往只能得到部分大的片段而不是基因組全長(zhǎng)。即便是測(cè)序時(shí)采用了雙端測(cè)序,往往也不能通過(guò)組裝軟件一步獲得全序。如何將這些片段組裝得到全基因組是高通量測(cè)全序領(lǐng)域的一大難點(diǎn)。雖然現(xiàn)在也有報(bào)道一些專門用于填補(bǔ)序列g(shù)ap的軟件,但是往往不具有普遍適用性。各種功能的軟件魚龍混雜,且沒(méi)有權(quán)威的評(píng)價(jià)報(bào)告。有些文獻(xiàn)對(duì)填補(bǔ)gap提出了許多方法,主要分為四類:
  (1)綜合不同組裝軟件對(duì)同一數(shù)據(jù)的組裝結(jié)果;
  (2)結(jié)合從頭組裝和依

5、賴參考序列組裝方法的結(jié)果,兩者互補(bǔ)填補(bǔ)gap;
  (3)利用多個(gè)測(cè)序平臺(tái)的數(shù)據(jù)進(jìn)行組裝并填補(bǔ)gap;
  (4)在gap兩端設(shè)計(jì)特異引物,使用PCR擴(kuò)增法獲得中間的序列。
  此外還有預(yù)先確定重復(fù)序列法、局部拼接法等?,F(xiàn)在還沒(méi)有一個(gè)萬(wàn)能的程序能夠處理任何復(fù)雜程度的數(shù)據(jù)。往往不同的數(shù)據(jù)需要進(jìn)行個(gè)性化組裝。這給非沒(méi)有拼接經(jīng)驗(yàn)的科研人員無(wú)疑增加了額外的難度。
  因此,高通量測(cè)序后如何獲得全序以及基因組學(xué)的新的分析方

6、法是目前研究的瓶頸。本文以現(xiàn)有的高通量測(cè)序數(shù)據(jù)分析為背景,著重講述了全基因組的組裝,提出了幾種填補(bǔ)gap的方法,并都使用了Perl語(yǔ)言編程實(shí)現(xiàn)。此外還對(duì)基因組分析中遇到的序列注釋及提交問(wèn)題、MLVA分型問(wèn)題提出了新的方法并輔助以編寫的程序。
  在組裝方法方面,首先介紹了3種常用軟件的使用方法(Velvet、SOAPdenovo、Newbler)。這三種軟件在處理不同數(shù)據(jù)方面具有代表性。本文以實(shí)際數(shù)據(jù)為例,分析了每個(gè)軟件中不同參數(shù)

7、的意義及其對(duì)結(jié)果的影響。結(jié)合實(shí)際經(jīng)驗(yàn),給出了這些軟件的參數(shù)經(jīng)驗(yàn)值,為科研工作者提供參考。然后,針對(duì)現(xiàn)有組裝軟件只能初步拼接并得到一系列片段而無(wú)法獲得全序的問(wèn)題,我們提出了3種組裝方法。這3種方法都是用于將大的片段串聯(lián)成全序,因此屬于現(xiàn)有組裝軟件的補(bǔ)充。它們分別為:片段定位(包括基于參考序列的定位和使用雙端測(cè)序數(shù)據(jù)定位)、末端延伸法填補(bǔ)gap、基于參考序列填補(bǔ)gap。這幾種方法理論簡(jiǎn)單易懂,容易實(shí)現(xiàn)。為實(shí)現(xiàn)這些方法,我們使用Perl語(yǔ)言進(jìn)

8、行了編程。其中有:
  1、使用配對(duì)數(shù)據(jù)尋找contig關(guān)聯(lián)的程序,用于確認(rèn)contigs間的上下游關(guān)系;
  2、末端延伸程序,用于填補(bǔ)片段內(nèi)部的gap;
  3、用大片段補(bǔ)gap程序,主要用于綜合從頭組裝和基于參考序列組裝兩者的結(jié)果,互相填補(bǔ)gap。
  在基因組分析方面,由于基因組學(xué)的內(nèi)容很廣,我們只針對(duì)實(shí)際工作中遇到的問(wèn)題提出了解決的方法,包括基因組的注釋和提交方法,以及MLVA分型方法。在基因組的注釋和

9、提交方面給出了基因組注釋的常用方法和流程,并根據(jù)在序列提交中遇到的5列表問(wèn)題編寫了Perl程序,簡(jiǎn)化了工作。另外針對(duì)現(xiàn)有MLVA分型中的缺點(diǎn)(基于PCR擴(kuò)增子的長(zhǎng)度),提出了基于序列的MLVA分型法,從而避免傳統(tǒng)方法中的缺點(diǎn)。同時(shí)編寫了專門用于從全序中提取各個(gè)MLVA位點(diǎn)序列的程序。
  本文介紹的方法都具有實(shí)際應(yīng)用價(jià)值,成果主要以程序的形式展示。這些程序使用簡(jiǎn)單,理論通俗易懂,對(duì)非高通量數(shù)據(jù)專業(yè)分析人員具有易用性,適合用于做個(gè)性

10、化的微生物分析。為了驗(yàn)證這些方法的可靠性,文中每個(gè)方法都介紹了一個(gè)實(shí)際案例(如立克次體、摩根式摩根菌、類鼻疽、炭疽桿菌、噬菌體等微生物的組裝)。實(shí)踐證明這些組裝方法能夠使用已有數(shù)據(jù)有效的填補(bǔ)上大量的gap(不用再次測(cè)序),為測(cè)全序節(jié)省時(shí)間和實(shí)驗(yàn)成本。第二部分介紹的基于序列的分型法相比傳統(tǒng)MLVA分型具有更高的準(zhǔn)確度,在高通量測(cè)序不斷深入的將來(lái)具有廣闊的應(yīng)用前景。
  生物信息學(xué)是一門偏應(yīng)用的學(xué)科,大量的方法蘊(yùn)藏在不同的分析任務(wù)中。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論