基于reads引導(dǎo)的基因組序列拼接.pdf_第1頁
已閱讀1頁,還剩58頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基因組序列拼接是生物信息學(xué)領(lǐng)域的核心問題,測序產(chǎn)生的讀取片段 reads經(jīng)過序列拼接組裝,生成基因組的堿基序列。新一代測序技術(shù)的快速發(fā)展,為生命科學(xué)重大問題的研究提供巨大幫助的同時,其數(shù)據(jù)海量、讀取片段 reads長度短、精確度低等特點也為全基因組序列拼接提出了相當(dāng)嚴峻的挑戰(zhàn),而傳統(tǒng)的序列拼接算法已不再適用。針對新一代測序的數(shù)據(jù)特點,研發(fā)能滿足實際應(yīng)用需要的基因組序列拼接軟件,已顯得極為迫切。
  本文首先簡要介紹了新一代測序技術(shù)

2、的產(chǎn)生背景、測序策略及技術(shù)特點等,認真分析了基因組序列拼接所面臨的主要挑戰(zhàn),比如大量重復(fù)片段的存在,reads數(shù)據(jù)海量、長度短及含有測序錯誤等,深入探討了當(dāng)前基因組序列拼接所采用的主要策略,即貪心策略,交疊-排序-生成共有序列(OLC)策略和De Bruijn圖策略等,總結(jié)了不同算法的優(yōu)勢及不足,并提出了序列拼接算法的改進方向。
  接著,本文提出了基于reads引導(dǎo)的基因組序列拼接算法,以整條reads為拼接的基本單位,并率先在

3、拼接算法中提出了基于信息累計和數(shù)據(jù)特征相結(jié)合的評分方法。該算法分為reads拼接和contigs組裝兩個階段,contigs是由reads拼接生成的長序列片段。reads拼接階段主要包括數(shù)據(jù)預(yù)處理、De Bruijn圖的建立、contigs構(gòu)建等,而contigs組裝階段則主要有contigs相對位置的確定、交疊overlap檢測、contigs連接及空隙gaps填充等過程,其中在確定contigs的相對位置時首次提出了配對數(shù)目數(shù)組PE

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論