版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著高通量測(cè)序技術(shù)的快速發(fā)展,基因組測(cè)序的通量更高、測(cè)序時(shí)間和成本不斷下降,使得其被廣泛應(yīng)用于微生物的基因組學(xué)研究。目前已經(jīng)完成基因組測(cè)序的微生物主要是模式微生物、特殊微生物和醫(yī)用微生物。后基因組學(xué)研究為從本質(zhì)上認(rèn)識(shí)微生物及改造微生物帶來(lái)質(zhì)的飛躍。然而,高通量測(cè)序數(shù)據(jù)的爆發(fā)式增長(zhǎng)給數(shù)據(jù)的分析,尤其是全序的組裝帶來(lái)了困難。如何從海量的數(shù)據(jù)中分析出需要的信息是當(dāng)前最大的挑戰(zhàn)。
基因組研究包括兩個(gè)方面的內(nèi)容:以全基因組測(cè)序?yàn)槟繕?biāo)的結(jié)
2、構(gòu)基因組學(xué)和以基因功能鑒定為目標(biāo)的功能基因組學(xué),也即后基因組研究。高通量測(cè)序能夠完成包括全基因組、轉(zhuǎn)錄組、宏基因組在內(nèi)的多種測(cè)序,并為后基因組學(xué)的分析帶來(lái)新的方法。
目前主流的高通量測(cè)序平臺(tái)有:Roche454、Illumina的Hiseq及Miseq、Life的IonTorrent。Illumina的高通量測(cè)序系統(tǒng)是市場(chǎng)上占有率最高的,其優(yōu)點(diǎn)是準(zhǔn)確度高,通量大,而缺點(diǎn)是運(yùn)行時(shí)間長(zhǎng)、讀長(zhǎng)短。Roche454以其讀長(zhǎng)最長(zhǎng)而著稱,
3、但是準(zhǔn)確度不夠高,測(cè)序成本高。IonTorrent測(cè)序速度最快。
全基因組測(cè)序?qū)θ媪私庖粋€(gè)物種的分子進(jìn)化、基因組成和基因調(diào)控等有著非常重要的意義。但是目前成熟的高通量測(cè)序都是以隨機(jī)打斷基因組然后測(cè)短片段為主。要獲得全基因組就必須對(duì)高通量測(cè)序的數(shù)據(jù)進(jìn)行組裝,即將測(cè)序數(shù)據(jù)用計(jì)算機(jī)程序按照重疊部分進(jìn)行重構(gòu),還原出基因組的全序。目前已有大量的組裝軟件被開發(fā)出來(lái)。這些軟件根據(jù)不同測(cè)序平臺(tái)的數(shù)據(jù)特點(diǎn)使用不同的算法。由于重復(fù)序列的干擾,現(xiàn)
4、在的組裝軟件往往只能得到部分大的片段而不是基因組全長(zhǎng)。即便是測(cè)序時(shí)采用了雙端測(cè)序,往往也不能通過(guò)組裝軟件一步獲得全序。如何將這些片段組裝得到全基因組是高通量測(cè)全序領(lǐng)域的一大難點(diǎn)。雖然現(xiàn)在也有報(bào)道一些專門用于填補(bǔ)序列g(shù)ap的軟件,但是往往不具有普遍適用性。各種功能的軟件魚龍混雜,且沒(méi)有權(quán)威的評(píng)價(jià)報(bào)告。有些文獻(xiàn)對(duì)填補(bǔ)gap提出了許多方法,主要分為四類:
(1)綜合不同組裝軟件對(duì)同一數(shù)據(jù)的組裝結(jié)果;
(2)結(jié)合從頭組裝和依
5、賴參考序列組裝方法的結(jié)果,兩者互補(bǔ)填補(bǔ)gap;
(3)利用多個(gè)測(cè)序平臺(tái)的數(shù)據(jù)進(jìn)行組裝并填補(bǔ)gap;
(4)在gap兩端設(shè)計(jì)特異引物,使用PCR擴(kuò)增法獲得中間的序列。
此外還有預(yù)先確定重復(fù)序列法、局部拼接法等?,F(xiàn)在還沒(méi)有一個(gè)萬(wàn)能的程序能夠處理任何復(fù)雜程度的數(shù)據(jù)。往往不同的數(shù)據(jù)需要進(jìn)行個(gè)性化組裝。這給非沒(méi)有拼接經(jīng)驗(yàn)的科研人員無(wú)疑增加了額外的難度。
因此,高通量測(cè)序后如何獲得全序以及基因組學(xué)的新的分析方
6、法是目前研究的瓶頸。本文以現(xiàn)有的高通量測(cè)序數(shù)據(jù)分析為背景,著重講述了全基因組的組裝,提出了幾種填補(bǔ)gap的方法,并都使用了Perl語(yǔ)言編程實(shí)現(xiàn)。此外還對(duì)基因組分析中遇到的序列注釋及提交問(wèn)題、MLVA分型問(wèn)題提出了新的方法并輔助以編寫的程序。
在組裝方法方面,首先介紹了3種常用軟件的使用方法(Velvet、SOAPdenovo、Newbler)。這三種軟件在處理不同數(shù)據(jù)方面具有代表性。本文以實(shí)際數(shù)據(jù)為例,分析了每個(gè)軟件中不同參數(shù)
7、的意義及其對(duì)結(jié)果的影響。結(jié)合實(shí)際經(jīng)驗(yàn),給出了這些軟件的參數(shù)經(jīng)驗(yàn)值,為科研工作者提供參考。然后,針對(duì)現(xiàn)有組裝軟件只能初步拼接并得到一系列片段而無(wú)法獲得全序的問(wèn)題,我們提出了3種組裝方法。這3種方法都是用于將大的片段串聯(lián)成全序,因此屬于現(xiàn)有組裝軟件的補(bǔ)充。它們分別為:片段定位(包括基于參考序列的定位和使用雙端測(cè)序數(shù)據(jù)定位)、末端延伸法填補(bǔ)gap、基于參考序列填補(bǔ)gap。這幾種方法理論簡(jiǎn)單易懂,容易實(shí)現(xiàn)。為實(shí)現(xiàn)這些方法,我們使用Perl語(yǔ)言進(jìn)
8、行了編程。其中有:
1、使用配對(duì)數(shù)據(jù)尋找contig關(guān)聯(lián)的程序,用于確認(rèn)contigs間的上下游關(guān)系;
2、末端延伸程序,用于填補(bǔ)片段內(nèi)部的gap;
3、用大片段補(bǔ)gap程序,主要用于綜合從頭組裝和基于參考序列組裝兩者的結(jié)果,互相填補(bǔ)gap。
在基因組分析方面,由于基因組學(xué)的內(nèi)容很廣,我們只針對(duì)實(shí)際工作中遇到的問(wèn)題提出了解決的方法,包括基因組的注釋和提交方法,以及MLVA分型方法。在基因組的注釋和
9、提交方面給出了基因組注釋的常用方法和流程,并根據(jù)在序列提交中遇到的5列表問(wèn)題編寫了Perl程序,簡(jiǎn)化了工作。另外針對(duì)現(xiàn)有MLVA分型中的缺點(diǎn)(基于PCR擴(kuò)增子的長(zhǎng)度),提出了基于序列的MLVA分型法,從而避免傳統(tǒng)方法中的缺點(diǎn)。同時(shí)編寫了專門用于從全序中提取各個(gè)MLVA位點(diǎn)序列的程序。
本文介紹的方法都具有實(shí)際應(yīng)用價(jià)值,成果主要以程序的形式展示。這些程序使用簡(jiǎn)單,理論通俗易懂,對(duì)非高通量數(shù)據(jù)專業(yè)分析人員具有易用性,適合用于做個(gè)性
10、化的微生物分析。為了驗(yàn)證這些方法的可靠性,文中每個(gè)方法都介紹了一個(gè)實(shí)際案例(如立克次體、摩根式摩根菌、類鼻疽、炭疽桿菌、噬菌體等微生物的組裝)。實(shí)踐證明這些組裝方法能夠使用已有數(shù)據(jù)有效的填補(bǔ)上大量的gap(不用再次測(cè)序),為測(cè)全序節(jié)省時(shí)間和實(shí)驗(yàn)成本。第二部分介紹的基于序列的分型法相比傳統(tǒng)MLVA分型具有更高的準(zhǔn)確度,在高通量測(cè)序不斷深入的將來(lái)具有廣闊的應(yīng)用前景。
生物信息學(xué)是一門偏應(yīng)用的學(xué)科,大量的方法蘊(yùn)藏在不同的分析任務(wù)中。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于比較基因組學(xué)和mRNA高通量測(cè)序的可變剪接外顯子進(jìn)化研究.pdf
- 基于高通量測(cè)序的Klebsiella pneumoniae基因組拼接的研究.pdf
- 基于高通量測(cè)序的石刁柏基因組SSR標(biāo)記的開發(fā).pdf
- 基于高通量測(cè)序技術(shù)的全基因組甲基化研究.pdf
- 基于高通量DNA測(cè)序的鄱陽(yáng)湖微生物生態(tài)研究.pdf
- 乙肝肝硬化患者腸道微生物宏基因組學(xué)的研究.pdf
- 純培養(yǎng)微生物全基因組深度測(cè)序研究.pdf
- 宏基因組文庫(kù)高通量篩選古鹽井中嗜鹽微生物耐鹽基因.pdf
- 基于宏基因組學(xué)的豬-腸道微生物互作靶點(diǎn)發(fā)掘及其微生物源追溯(MST)研究.pdf
- 面向高通量DNA檢測(cè)技術(shù)的微生物基因識(shí)別及基因組分析.pdf
- 高通量組學(xué)方法在海綿共生微生物研究中的應(yīng)用.pdf
- 基因、基因組和基因組學(xué)
- 基于高通量測(cè)序技術(shù)下土壤微生物群落結(jié)構(gòu)的研究.pdf
- 臨床分離的Janibacter全基因組從頭測(cè)序及比較基因組學(xué)研究.pdf
- 宏基因組學(xué)方法在環(huán)境微生物生態(tài)及基因查找中的應(yīng)用研究.pdf
- 川牛膝全基因組高通量測(cè)序及初步數(shù)據(jù)分析.pdf
- 長(zhǎng)遠(yuǎn)航作業(yè)人員頰粘膜和臍周微生物宏基因組學(xué)研究.pdf
- 基于第二代高通量測(cè)序的荷花玉蘭葉綠體全基因組研究.pdf
- 廣東桑和魯桑葉綠體基因組高通量測(cè)序及基因注釋分析.pdf
- 基于高通量測(cè)序半夏珠芽轉(zhuǎn)錄組研究.pdf
評(píng)論
0/150
提交評(píng)論