基于高通量RNa-seq數(shù)據(jù)轉(zhuǎn)錄組拼接的算法研究.pdf_第1頁
已閱讀1頁,還剩101頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、當(dāng)今的生物技術(shù)快速發(fā)展,生物學(xué)大數(shù)據(jù)每天以爆炸式的速度增長,這無疑給生物學(xué)研究和發(fā)展帶來前所未有的機遇,然而傳統(tǒng)的生物學(xué)分析方法已經(jīng)無法處理如此龐大的數(shù)據(jù)。生物信息學(xué),作為一門新興的交叉學(xué)科應(yīng)運而生,它將數(shù)學(xué),計算機科學(xué),統(tǒng)計學(xué)等結(jié)合起來研究和解決大數(shù)據(jù)下的生物學(xué)問題。其中一個非?;A(chǔ),重要而又極具挑戰(zhàn)性的問題就是序列拼接問題,轉(zhuǎn)錄組拼接就是其典型代表。轉(zhuǎn)錄組拼接就是利用RNA-seq等測序技術(shù)產(chǎn)生的海量測序片段拼接出實驗組織中所有的表

2、達轉(zhuǎn)錄本,并估計出其表達量。本文的研究主要集中在如何利用組合優(yōu)化方法來解決轉(zhuǎn)錄組拼接問題,這對于新物種研究,以及與異常轉(zhuǎn)錄相關(guān)的人類復(fù)雜疾病研究等相關(guān)問題意義重大。
  第二代RNA-seq測序技術(shù)的快發(fā)展和廣泛應(yīng)用給轉(zhuǎn)錄組拼接工作帶來無限機遇的同時,也伴隨著在計算上前所未有的挑戰(zhàn)。目前的拼接算法根據(jù)計算策略可大致分為兩類:
  1)基于參考基因組的轉(zhuǎn)錄組拼接算法;
  2)從頭轉(zhuǎn)錄組拼接算法。當(dāng)有高質(zhì)量的參考基因組存

3、在時,可先將測序片段回貼到參考基因組上,之后,根據(jù)回貼的結(jié)果對每個基因分別進行轉(zhuǎn)錄組拼接。在參考基因組不存在,不完整,嚴(yán)重片段化或是在癌組織中大量突變等,從頭轉(zhuǎn)錄組拼接就成為了非常重要的且是唯一的選擇。從頭拼接策略不需要依賴任何參考信息,直接從測序片段本身出發(fā),重構(gòu)出最終的表達轉(zhuǎn)錄體序列。無論是轉(zhuǎn)錄組拼接的何種策略,目前的算法在計算精度和計算效率上都存在明顯的缺陷和嚴(yán)重的不足,導(dǎo)致其實際應(yīng)用效果非常差。因此,兩種策略都亟待開發(fā)出全新的,

4、高質(zhì)量的拼接算法,以準(zhǔn)確重構(gòu)出真核生物組織中的全長轉(zhuǎn)錄組。
  基于上述的考慮,本文設(shè)計全新的基于參考基因組的轉(zhuǎn)錄組拼接算法TransComb,這個算法給轉(zhuǎn)錄組拼接提出了全新的設(shè)計思路,極大的彌補了當(dāng)前算法存在的嚴(yán)重缺陷。經(jīng)過在模擬數(shù)據(jù)和多組真實數(shù)據(jù)上的測試,結(jié)果充分地表明,無論在模擬數(shù)據(jù)還是真實數(shù)據(jù)上,本文開發(fā)的拼接算法與其他主流拼接算法比較都展示出明顯的優(yōu)勢:不僅具有更高的靈敏度,而且具有更高的準(zhǔn)確度,對其他算法普遍存在的假陽

5、性高的難題得到了極大程度的解決。而且,在計算資源消耗方面,TransComb使用的CPU時間明顯更短且運行內(nèi)存更低。經(jīng)過綜合的測試表明,TransComb無論是在計算精度上還是在計算效率上都顯著超過其他拼接算法。
  本文的新算法TransComb具有以下幾個明顯的的創(chuàng)新點:
  1)新的技術(shù)構(gòu)造出更加準(zhǔn)確的剪接圖。本文設(shè)計出使用雙端測序信息來修復(fù)片段化的外顯子的技術(shù),以及為修復(fù)錯誤連接的外顯子而設(shè)計出的窗口滑動技術(shù)。

6、>  2)梳圖模型和雙端測序信息解決轉(zhuǎn)錄組拼接的核心難題。轉(zhuǎn)錄組拼接的核心難題就是外顯子兩側(cè)進出邊連接的不確定性,這也是目前幾乎所有的拼接軟件共存的一大漏洞。本文開發(fā)的梳圖模型將測序覆蓋度信息和雙端測序信息合理的整合在一起,巧妙的解決了拼接的核心難題。
  3)全新的圖模型:加權(quán)節(jié)點圖。打破基于RNA-seq的轉(zhuǎn)錄組拼接算法依賴傳統(tǒng)重疊圖和剪接圖的現(xiàn)狀,我們的算法是在加權(quán)節(jié)點圖的基礎(chǔ)上完成拼接,節(jié)點圖中包含了更多有效信息,因而克服

7、了現(xiàn)有算法的若干缺陷。
  4)基于節(jié)點圖設(shè)計的新的路的延伸策略。該策略在延伸過程中每一步都有節(jié)點圖上邊的權(quán)重作為依據(jù),使得每一條延伸出的路都以很大概率代表一個表達的轉(zhuǎn)錄體,無論該轉(zhuǎn)錄體是高表達還是低表達。
  盡管TransComb在拼接方面表現(xiàn)出了明顯的優(yōu)勢,但是其仍然存在不足之處。比如:
  1)TransComb在設(shè)計過程中沒有實現(xiàn)并行化,因此,在程序設(shè)計方面還有待進一步提升。
  2)表達量估計算法設(shè)計

8、沒有將測序偏好等信息考慮進去,因此,在某些數(shù)據(jù)上的表達量估計中TransComb與其他主流算法效果接近,沒有表現(xiàn)出明顯的優(yōu)勢,這個過程還有待于進一步提高。
  最后,本文還將簡要介紹我們開發(fā)的另一個轉(zhuǎn)錄組拼接算法BinPacker,該算法是不依賴參考信息的從頭拼接算法。BinPacker把轉(zhuǎn)錄組拼接問題重新模型化為追蹤一系列物品的軌跡模型,每個物品代表一種轉(zhuǎn)錄體,物品的尺寸表示該轉(zhuǎn)錄體的覆蓋度。這個方法能夠巧妙地將覆蓋度信息合理的

9、利用在拼接過程中,另外,BinPacker具備如下兩個獨有的特征:
  1)只有剪接圖中的可變剪接事件作為拼接過程的考慮對象;
  2)拼接大量雜亂無章的測序片段的過程被形象的模型化為梳理剪接圖中的邊的過程。最后,我們同時在模擬數(shù)據(jù)和真實數(shù)據(jù)上測試BinPacker,測試結(jié)果顯示,BinPacker在各種數(shù)據(jù)類型下均明顯超過幾乎所有現(xiàn)存的從頭拼接軟件,包括最主流的軟件Trinity,在某些數(shù)據(jù)下,BinPacker的表現(xiàn)甚至

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論