

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、新一代測序技術(Next-Generation Sequencing,NGS)的出現使得快速、廉價地獲取全基因組、高通量測序數據成為可能,改變了人們在基礎、應用和臨床研究的科研方法,加深了人們對復雜生命現象及其機制的理解,極大地促進了多組學研究的發(fā)展。
DNA元件百科全書計劃(Encyclopedia of DNA Elements,ENCODE)和表觀路線圖計劃(Roadmap Epigenomics)是后基因組時代的最重要
2、的兩個科研項目,提供了大量ChIP-Seq、RNA-Seq、DNase-Seq等全基因組、高通量、多組學數據。這些多組學數據不是孤立的,他們相互聯系、相互影響,反映了基因組不同方面的性質。因此,我們應該有效利用各組學數據之間的技術差異和互補性,從系統(tǒng)的、整合的角度將多組學數據結合起來進行集成研究,從系統(tǒng)水平上解決生物學問題,從而揭示生命現象背后隱藏的秘密。
為了解決基因組不同類型的功能元件的識別難題,人們需要大量有待解決問題的
3、生物背景知識,基于這些先驗知識人為地設計一系列諸如過濾、合并、重疊的操作流程來識別相應的功能元件,但是這嚴重地依賴于人們對相關問題的先驗認知的程度。另外,人們也開發(fā)了一些生物信息學算法和軟件來識別功能元件,并取得了一定成效,但是這些算法和軟件從本質上來說屬于淺層學習(Shallow Learning),其數據刻畫和特征學習的能力有限,因此它們整合海量、復雜的多組學數據并從中發(fā)現規(guī)律的能力大大受到限制。
2006年Geoffre
4、y Hinton在《科學》雜志上的一篇開創(chuàng)性的文章掀起了深度學習(Deep Learning)的浪潮。深度學習是人工神經網絡(Artificial Neural Network, ANN)研究的延伸和拓展,利用深度學習建立的深層神經網絡(Deep Neural Network,DNN)具有優(yōu)異的特征學習能力,通過逐層的抽象和特征提取,可以對大量訓練樣本進行更本質的數據刻畫和學習統(tǒng)計學規(guī)律,從而對新的未知數據做出更加精準的預測。
5、 本文根據不同的特定生物學問題和相應的特定數據類型,基于對深度學習等各種機器學習算法的扎實理論基礎和實際應用經驗,首先“因地制宜”地設計和開發(fā)了適合不同生物學問題的不同深度學習算法。接著利用 ENCODE計劃和NIH Roadmap Epigenomics計劃提供的大量的全基因組、高通量NGS數據,從系統(tǒng)的、整合的角度進行集成研究,利用已建立的基于深度學習的算法識別全基因組的各種不同功能元件。最后,基于算法識別的全基因組功能元件,從表觀
6、組蛋白修飾、基因表達、轉錄因子結合位點、DNA超敏位點、DNA甲基化、保守性、染色質三維結構和RNA二級結構等多個方面來分析這些不同功能元件的相關生物學性質,以及探究其與疾病的關系。
根據具體的不同生物學問題,本文完成了以下幾個方面的研究內容:
首先,基于深度學習的人類基因組復制時間域的識別與注釋研究。本文從DNA復制中的復制時間域入手,為了解決不同復制時間域的識別難題,本文開發(fā)了一種新的、結合了深層神經網絡和隱馬爾
7、科夫模型(DNN-HMM)的混合算法,利用復制時間譜來識別相關的復制時間域。通過性能評估和比較,結果表明, DNN-HMM顯著地優(yōu)于傳統(tǒng)的DNN和高斯混合模型—隱馬爾科夫模型(GMM-HMM),同時也比其他可用于復制時間域識別的6種方法的性能更加優(yōu)秀?;陂_發(fā)的深度學習算法,本文利用新復制 DNA測序(Repli-Seq)數據和訓練好的DNN-HMM模型識別了15個細胞中各種類型的復制時間域。接下來的基于多組學數據的整合分析表明DNN-
8、HMM識別的這些復制時間域擁有獨特的基因組和表觀基因組模式、轉錄活性、高階的染色質結構,基于這些發(fā)現本文提出了“復制時間域”模型。該模型揭示了人類基因組中染色質組織結構的重要原則,加深了我們對人類基因組調控復制時間機制的理解。
其次,基于深度學習的人類基因組增強子的識別研究。增強子在調控基因的時空表達方面具有重要作用,但是全基因組的增強子的預測一直受幾個關鍵問題的制約,因此增強子的預測是計算生物學中的一大挑戰(zhàn)。本文提出了一種基
9、于深度學習的算法框架 PEDLA來對增強子進行綜合地、無偏地預測。結果表明, PEDLA能夠整合海量不同類型的異構數據,使得預測結果更加綜合和準確;PEDLA也具備處理類別不平衡數據的能力,使得預測結果更加穩(wěn)健和無偏。與當前頂尖的5種同類機器學習算法相比,PEDLA的性能顯著地優(yōu)于它們。在此基礎上,本文進一步將PEDLA框架擴展到多細胞/組織類型的增強子識別中。將PEDLA在22個細胞/組織進行了迭代訓練,發(fā)現訓練后的模型在22個訓練細
10、胞/組織和20個獨立的測試細胞/組織中取得了極其優(yōu)異且一致的性能,表明PEDLA是一種可用于不同細胞/組織的增強子預測的通用的、穩(wěn)健的深度學習框架。
再次,基于深度學習和集成學習的RNA編輯位點的識別研究。當前RNA編輯位點的識別主要都是基于人們對 RNA編輯位點的先驗知識通過一系列人工繁雜的過濾來得到。本文針對RNA編輯位點的識別問題,設計和開發(fā)了基于深度學習的自舉重采樣的并行集成學習的RNA編輯位點的識別算法——DeepR
11、ed。DeepRed算法有幾個突出優(yōu)點:一是可以自動從訓練樣本中學習和歸納到 RNA編輯位點更本質的信息和規(guī)律;二是可以直接從 GATK輸出的包含各種類型的復雜候選集合中準確預測RNA編輯位點;三是,在識別RNA編輯位點同時能夠識別 SNP;四是,輸入特征都是“ATCG”的原始序列,算法可以自動提取和抽象更加有效的特征;五是算法具有很好處理類別不平衡數據的能力。結果表明,DeepRed算法在RNA編輯位點識別中取得了極好的效果,同時,獨
12、立實驗數據的驗證也進一步表明 DeepRed算法是可靠和準確的。另外,在多細胞中的評估結果表明 DeepRed算法具有很好的泛化能力,能夠有效識別不同細胞、不同位置和不同狀態(tài)下RNA編輯位點。
最后,人類基因組增強子RNA的識別與注釋研究。eRNA到底僅僅是轉錄噪聲還是具有調控功能,以及具體到底是eRNA轉錄本還是轉錄RNA的動作是有功能的,一直是相關研究所探討的問題。本文識別了50個細胞/組織的一類特殊的增強子——活性增強子
13、及其轉錄產生的一類非編碼RNA(eRNA)分子。通過組蛋白修飾、RNA轉錄、轉錄因子結合位點和共激活劑結合位點等不同染色質標志的性質分析,本研究發(fā)現增強子活性、eRNA水平、關聯基因 mRNA水平、GO生物過程都是以一種細胞特異的方式關聯在一起,并且這些特異的生物過程準確地定義了對應細胞/組織的身份特性。通過在 eRNA中檢測已知和全新RNA二級結構,本文發(fā)現eRNA中存在大量功能性結構ncRNA,包括類似miRNA的保守二級結構。進一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于整合組學策略的人類基因組功能元件的識別與注釋.pdf
- 基于EST全基因組定位的基因結構注釋研究.pdf
- 基于基因組數據的轉錄調控元件分析.pdf
- 面向個人基因組變異的功能注釋與可視化方法研究.pdf
- 豬全基因組變異位點功能注釋程序開發(fā).pdf
- 整合功能注釋的全基因組選擇和關聯分析方法研究.pdf
- 49881.基因組調控元件的分析
- 水稻CO39基因組的組裝注釋與分析.pdf
- 低溫真菌線粒體基因組測序及注釋分析.pdf
- 基于宏基因組編碼的個體特征識別研究.pdf
- 調控元件在全基因組上的識別研究以及在線分析平臺的構建.pdf
- 一種基于多維基因組數據的基因功能模塊的識別方法.pdf
- 結核分枝桿菌基因組重注釋研究.pdf
- 小菜蛾RNAi通路核心元件的基因組篩選及PxDcr--2基因的功能驗證.pdf
- 昆蟲基因組注釋方法改進及兩種昆蟲基因組分析.pdf
- 基因組水平的基因進化分析與水平轉移基因的識別.pdf
- 單子葉植物基因組結構和功能的比較基因組研究.pdf
- 家蠶蛋白質組表達譜分析及基因組注釋.pdf
- 基于組學數據挖掘的微生物檢測、基因組注釋及與宿主相互作用的研究.pdf
- 基因組變異仿真與基因組模式鑒定.pdf
評論
0/150
提交評論