基于深度學(xué)習(xí)的增強(qiáng)子調(diào)控序列識(shí)別研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-01 格式：pdf 頁數(shù)：66 大?。?.08MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

基于深度學(xué)習(xí)的增強(qiáng)子調(diào)控序列識(shí)別研究.pdf_第1頁

已閱讀1頁，還剩65頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著新一代測(cè)序技術(shù)（Next-Generation Sequencing,NGS）對(duì)整個(gè)測(cè)序領(lǐng)域帶來重大革新，生物學(xué)各個(gè)領(lǐng)域的研究得益于NGS技術(shù)，能夠快速、廉價(jià)地獲得高通量層序數(shù)據(jù)。這一進(jìn)步徹底改變了以往研究人員針對(duì)基礎(chǔ)研究、臨床研究的方法。同時(shí)，海量的數(shù)據(jù)使得新的存儲(chǔ)方式和計(jì)算方法不斷提出。從前以注重生化實(shí)驗(yàn)的研究方法已經(jīng)慢慢轉(zhuǎn)向注重后期數(shù)據(jù)分析。從前需要大量數(shù)據(jù)才能建立的組學(xué)分析以及多組學(xué)間的分析如今已成為可能，加快了人們對(duì)復(fù)雜生

2、命現(xiàn)象機(jī)制的理解。
　　數(shù)據(jù)的爆炸式增長(zhǎng)，使得研究人員意識(shí)到，需要有新的知識(shí)組織形式幫助后人更好地理解當(dāng)前的研究進(jìn)展。同時(shí)，數(shù)據(jù)深層次的意義需要人們反復(fù)地對(duì)所積累的數(shù)據(jù)進(jìn)行挖掘。因此，人類基因組計(jì)劃（Human Genome Project,HGP）是生物學(xué)領(lǐng)域中一個(gè)重要的里程碑，該計(jì)劃致力于讀取人類基因組全部的堿基序列。然而，我們的目的不僅僅于此，更重要的是理解DNA序列中隱含的各種功能。隨后，表觀路線圖計(jì)劃（Roadmap E

3、pigenomics Project）和DNA元件百科全書計(jì)劃（Encyclopedia of DNA Elements Project,ENCODE）是人類進(jìn)一步探索遺傳奧秘的兩大重要項(xiàng)目。這兩個(gè)項(xiàng)目收集了大量來自于多組學(xué)的 DNase-Seq、RNA-Seq、ChIP-Seq等實(shí)驗(yàn)數(shù)據(jù)。生物學(xué)領(lǐng)域中某個(gè)組學(xué)的研究往往不是獨(dú)立的，它僅僅反映了基因組單個(gè)方面的性質(zhì)，然而多組學(xué)之間其實(shí)存在著非常緊密的聯(lián)系。如何從一個(gè)系統(tǒng)的、整體的角度將不

4、同組學(xué)的數(shù)據(jù)結(jié)合起來研究已成為當(dāng)前生物信息學(xué)領(lǐng)域最重要的研究方法之一。
　　通過過去40多年來的研究證明，在DNA序列上存在一系列的順式調(diào)控序列（cis-regulatory sequences），如果某些基因突變發(fā)生在這些調(diào)控元件的區(qū)域，將導(dǎo)致最終表型的差異。其中，順式調(diào)控元件（cis-regulatory elements）就是激活和維持轉(zhuǎn)錄發(fā)生的關(guān)鍵。深入理解順式調(diào)控元件對(duì)于理解生命活動(dòng)的機(jī)理、人類疾病發(fā)生的原因以及物種之間

5、的保守性規(guī)律等非常重要。
　　增強(qiáng)子（Enhancer）是一類遠(yuǎn)端順式作用的DNA調(diào)控元件，它們?cè)诓煌瑫r(shí)間、不同細(xì)胞系的基因表達(dá)中起到了關(guān)鍵的調(diào)控作用。當(dāng)前，理解增強(qiáng)子的特性、作用目標(biāo)和調(diào)控活動(dòng)是一個(gè)非常重要的研究領(lǐng)域，因?yàn)樗g接地對(duì)發(fā)育、細(xì)胞鑒定、表達(dá)多樣性、進(jìn)化以及人類疾病起到關(guān)鍵作用。由于增強(qiáng)子元件沒有共同的序列特征，而每個(gè)增強(qiáng)子的作用目標(biāo)也無法精確定位，此外，增強(qiáng)子的調(diào)控作用具有很強(qiáng)的細(xì)胞/組織特異性。所以在哺乳類基因組中

6、，如何準(zhǔn)確識(shí)別增強(qiáng)子依然存在很大的挑戰(zhàn)。
　　近年來，得益于深度測(cè)序技術(shù)的發(fā)展，使得大量增強(qiáng)子預(yù)測(cè)的計(jì)算方法得以實(shí)現(xiàn)。這些預(yù)測(cè)方法可以利用該測(cè)序技術(shù)獲得來自不同數(shù)據(jù)源的充足數(shù)據(jù)。依據(jù)數(shù)據(jù)的不同來源，可以大致將增強(qiáng)子識(shí)別算法從概念上分為3類。不同的計(jì)算方法依賴不同的數(shù)據(jù)集、輸入特征或監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)的組合。第一類使用生物信息學(xué)計(jì)算方法識(shí)別增強(qiáng)子利用的是表觀遺傳學(xué)數(shù)據(jù)，比如說從ChIP-seq數(shù)據(jù)中獲取的組蛋白信息、DNase高敏

7、位點(diǎn)（DHSs）或轉(zhuǎn)錄因子結(jié)合位點(diǎn)（TFBSs），這一類方法主要利用聚類或非監(jiān)督學(xué)習(xí)的方式完成。第二類方法是將增強(qiáng)子識(shí)別問題抽象成一個(gè)利用有監(jiān)督的機(jī)器學(xué)習(xí)方法來區(qū)分增強(qiáng)子區(qū)域和非增強(qiáng)子區(qū)域的二分類問題，比如說利用支持向量機(jī)（SVMs）、人工神經(jīng)網(wǎng)絡(luò)（ANNs）、決策樹（DTs）、隨機(jī)森林（RFs）、圖論模型（PGMs）或是近年來最火的深度學(xué)習(xí)（DLs）。第三類利用的生物信息學(xué)方法是通過對(duì)增強(qiáng)子的高精度掃描，從而獲得高質(zhì)量的數(shù)據(jù)，以此來測(cè)

8、試人類、小鼠、果蠅和酵母中的增強(qiáng)子。盡管這些增強(qiáng)子識(shí)別方法都起到了一定的效果，但是在生物信息學(xué)層面上依然存在很多技術(shù)問題，比如說類別不平衡、過擬合問題、參數(shù)難確定以及泛化能力差的問題。一個(gè)主要的困難是缺乏大量實(shí)驗(yàn)驗(yàn)證的人類或其他物種的增強(qiáng)子區(qū)域。因此，我們迫切需要基于有限的實(shí)驗(yàn)驗(yàn)證數(shù)據(jù)的計(jì)算方法來挖掘增強(qiáng)子序列中關(guān)于轉(zhuǎn)錄調(diào)控編碼功能的規(guī)律。
　　從2006年由Genoffery Hinton首次提出深度學(xué)習(xí)（Deep Learni

9、ng）的概念，到2012年Hinton團(tuán)隊(duì)的卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network）模型在ImageNet圖像識(shí)別比賽上大殺四方，再到2016年Alpha Go程序完勝人類圍棋高手，這三個(gè)事件徹底掀起了全球?qū)θ斯ぶ悄芗夹g(shù)的研究熱潮。得益于近年來高性能CPU、GPU、FPGA等計(jì)算硬件的發(fā)展，深度學(xué)習(xí)高復(fù)雜度復(fù)雜的計(jì)算問題得以解決。同時(shí)，憑借著深度學(xué)習(xí)算法在提取不同層次的抽象特征、學(xué)習(xí)特征上的強(qiáng)大能力，配合

10、當(dāng)前海量的研究數(shù)據(jù)，它的性能已經(jīng)遠(yuǎn)遠(yuǎn)超越傳統(tǒng)的機(jī)器學(xué)習(xí)算法。深度學(xué)習(xí)已經(jīng)在圖像識(shí)別、自然語言處理、語音識(shí)別、量化交易等眾多領(lǐng)域有著廣泛應(yīng)用。當(dāng)然，深度學(xué)習(xí)算法也拓寬了生物醫(yī)學(xué)領(lǐng)域的研究方法，近年來有不少如醫(yī)學(xué)影像處理、藥物靶標(biāo)篩選、基因突變位點(diǎn)評(píng)估等問題通過深度學(xué)習(xí)方法獲得不錯(cuò)的效果，并且相繼發(fā)表了研究成果。
　　在本文中，我們?cè)敿?xì)分析了順式調(diào)控元件的研究現(xiàn)狀，重點(diǎn)關(guān)注了增強(qiáng)子調(diào)控元件的相關(guān)的各種研究方法。隨后，我們描述了使用機(jī)器

11、學(xué)習(xí)、深度學(xué)習(xí)解決相關(guān)問題的一般方法以及它們之間的區(qū)別和優(yōu)劣。通過分析利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)識(shí)別增強(qiáng)子調(diào)控元件的各類方法，我們發(fā)現(xiàn)其中存在著準(zhǔn)確率低、泛化能力差、受限于數(shù)據(jù)來源等問題。因此，我們構(gòu)建了一個(gè)基于深度學(xué)習(xí)的混合模型，起名為BiRen，它結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)（CNN）對(duì)于序列數(shù)據(jù)的表示能力以及能夠較好處理DNA序列長(zhǎng)距離依賴問題的GRU單元雙向循環(huán)神經(jīng)網(wǎng)絡(luò)（BRNN），通過這個(gè)模型，我們可以只依賴DNA序列本身就能準(zhǔn)確識(shí)別增強(qiáng)子

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于深度學(xué)習(xí)的增強(qiáng)子調(diào)控序列識(shí)別研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于深度學(xué)習(xí)的增強(qiáng)子調(diào)控序列識(shí)別研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載