版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著新一代測(cè)序技術(shù)(Next-Generation Sequencing,NGS)對(duì)整個(gè)測(cè)序領(lǐng)域帶來(lái)重大革新,生物學(xué)各個(gè)領(lǐng)域的研究得益于NGS技術(shù),能夠快速、廉價(jià)地獲得高通量層序數(shù)據(jù)。這一進(jìn)步徹底改變了以往研究人員針對(duì)基礎(chǔ)研究、臨床研究的方法。同時(shí),海量的數(shù)據(jù)使得新的存儲(chǔ)方式和計(jì)算方法不斷提出。從前以注重生化實(shí)驗(yàn)的研究方法已經(jīng)慢慢轉(zhuǎn)向注重后期數(shù)據(jù)分析。從前需要大量數(shù)據(jù)才能建立的組學(xué)分析以及多組學(xué)間的分析如今已成為可能,加快了人們對(duì)復(fù)雜生
2、命現(xiàn)象機(jī)制的理解。
數(shù)據(jù)的爆炸式增長(zhǎng),使得研究人員意識(shí)到,需要有新的知識(shí)組織形式幫助后人更好地理解當(dāng)前的研究進(jìn)展。同時(shí),數(shù)據(jù)深層次的意義需要人們反復(fù)地對(duì)所積累的數(shù)據(jù)進(jìn)行挖掘。因此,人類基因組計(jì)劃(Human Genome Project,HGP)是生物學(xué)領(lǐng)域中一個(gè)重要的里程碑,該計(jì)劃致力于讀取人類基因組全部的堿基序列。然而,我們的目的不僅僅于此,更重要的是理解DNA序列中隱含的各種功能。隨后,表觀路線圖計(jì)劃(Roadmap E
3、pigenomics Project)和DNA元件百科全書(shū)計(jì)劃(Encyclopedia of DNA Elements Project,ENCODE)是人類進(jìn)一步探索遺傳奧秘的兩大重要項(xiàng)目。這兩個(gè)項(xiàng)目收集了大量來(lái)自于多組學(xué)的 DNase-Seq、RNA-Seq、ChIP-Seq等實(shí)驗(yàn)數(shù)據(jù)。生物學(xué)領(lǐng)域中某個(gè)組學(xué)的研究往往不是獨(dú)立的,它僅僅反映了基因組單個(gè)方面的性質(zhì),然而多組學(xué)之間其實(shí)存在著非常緊密的聯(lián)系。如何從一個(gè)系統(tǒng)的、整體的角度將不
4、同組學(xué)的數(shù)據(jù)結(jié)合起來(lái)研究已成為當(dāng)前生物信息學(xué)領(lǐng)域最重要的研究方法之一。
通過(guò)過(guò)去40多年來(lái)的研究證明,在DNA序列上存在一系列的順式調(diào)控序列(cis-regulatory sequences),如果某些基因突變發(fā)生在這些調(diào)控元件的區(qū)域,將導(dǎo)致最終表型的差異。其中,順式調(diào)控元件(cis-regulatory elements)就是激活和維持轉(zhuǎn)錄發(fā)生的關(guān)鍵。深入理解順式調(diào)控元件對(duì)于理解生命活動(dòng)的機(jī)理、人類疾病發(fā)生的原因以及物種之間
5、的保守性規(guī)律等非常重要。
增強(qiáng)子(Enhancer)是一類遠(yuǎn)端順式作用的DNA調(diào)控元件,它們?cè)诓煌瑫r(shí)間、不同細(xì)胞系的基因表達(dá)中起到了關(guān)鍵的調(diào)控作用。當(dāng)前,理解增強(qiáng)子的特性、作用目標(biāo)和調(diào)控活動(dòng)是一個(gè)非常重要的研究領(lǐng)域,因?yàn)樗g接地對(duì)發(fā)育、細(xì)胞鑒定、表達(dá)多樣性、進(jìn)化以及人類疾病起到關(guān)鍵作用。由于增強(qiáng)子元件沒(méi)有共同的序列特征,而每個(gè)增強(qiáng)子的作用目標(biāo)也無(wú)法精確定位,此外,增強(qiáng)子的調(diào)控作用具有很強(qiáng)的細(xì)胞/組織特異性。所以在哺乳類基因組中
6、,如何準(zhǔn)確識(shí)別增強(qiáng)子依然存在很大的挑戰(zhàn)。
近年來(lái),得益于深度測(cè)序技術(shù)的發(fā)展,使得大量增強(qiáng)子預(yù)測(cè)的計(jì)算方法得以實(shí)現(xiàn)。這些預(yù)測(cè)方法可以利用該測(cè)序技術(shù)獲得來(lái)自不同數(shù)據(jù)源的充足數(shù)據(jù)。依據(jù)數(shù)據(jù)的不同來(lái)源,可以大致將增強(qiáng)子識(shí)別算法從概念上分為3類。不同的計(jì)算方法依賴不同的數(shù)據(jù)集、輸入特征或監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)的組合。第一類使用生物信息學(xué)計(jì)算方法識(shí)別增強(qiáng)子利用的是表觀遺傳學(xué)數(shù)據(jù),比如說(shuō)從ChIP-seq數(shù)據(jù)中獲取的組蛋白信息、DNase高敏
7、位點(diǎn)(DHSs)或轉(zhuǎn)錄因子結(jié)合位點(diǎn)(TFBSs),這一類方法主要利用聚類或非監(jiān)督學(xué)習(xí)的方式完成。第二類方法是將增強(qiáng)子識(shí)別問(wèn)題抽象成一個(gè)利用有監(jiān)督的機(jī)器學(xué)習(xí)方法來(lái)區(qū)分增強(qiáng)子區(qū)域和非增強(qiáng)子區(qū)域的二分類問(wèn)題,比如說(shuō)利用支持向量機(jī)(SVMs)、人工神經(jīng)網(wǎng)絡(luò)(ANNs)、決策樹(shù)(DTs)、隨機(jī)森林(RFs)、圖論模型(PGMs)或是近年來(lái)最火的深度學(xué)習(xí)(DLs)。第三類利用的生物信息學(xué)方法是通過(guò)對(duì)增強(qiáng)子的高精度掃描,從而獲得高質(zhì)量的數(shù)據(jù),以此來(lái)測(cè)
8、試人類、小鼠、果蠅和酵母中的增強(qiáng)子。盡管這些增強(qiáng)子識(shí)別方法都起到了一定的效果,但是在生物信息學(xué)層面上依然存在很多技術(shù)問(wèn)題,比如說(shuō)類別不平衡、過(guò)擬合問(wèn)題、參數(shù)難確定以及泛化能力差的問(wèn)題。一個(gè)主要的困難是缺乏大量實(shí)驗(yàn)驗(yàn)證的人類或其他物種的增強(qiáng)子區(qū)域。因此,我們迫切需要基于有限的實(shí)驗(yàn)驗(yàn)證數(shù)據(jù)的計(jì)算方法來(lái)挖掘增強(qiáng)子序列中關(guān)于轉(zhuǎn)錄調(diào)控編碼功能的規(guī)律。
從2006年由Genoffery Hinton首次提出深度學(xué)習(xí)(Deep Learni
9、ng)的概念,到2012年Hinton團(tuán)隊(duì)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)模型在ImageNet圖像識(shí)別比賽上大殺四方,再到2016年Alpha Go程序完勝人類圍棋高手,這三個(gè)事件徹底掀起了全球?qū)θ斯ぶ悄芗夹g(shù)的研究熱潮。得益于近年來(lái)高性能CPU、GPU、FPGA等計(jì)算硬件的發(fā)展,深度學(xué)習(xí)高復(fù)雜度復(fù)雜的計(jì)算問(wèn)題得以解決。同時(shí),憑借著深度學(xué)習(xí)算法在提取不同層次的抽象特征、學(xué)習(xí)特征上的強(qiáng)大能力,配合
10、當(dāng)前海量的研究數(shù)據(jù),它的性能已經(jīng)遠(yuǎn)遠(yuǎn)超越傳統(tǒng)的機(jī)器學(xué)習(xí)算法。深度學(xué)習(xí)已經(jīng)在圖像識(shí)別、自然語(yǔ)言處理、語(yǔ)音識(shí)別、量化交易等眾多領(lǐng)域有著廣泛應(yīng)用。當(dāng)然,深度學(xué)習(xí)算法也拓寬了生物醫(yī)學(xué)領(lǐng)域的研究方法,近年來(lái)有不少如醫(yī)學(xué)影像處理、藥物靶標(biāo)篩選、基因突變位點(diǎn)評(píng)估等問(wèn)題通過(guò)深度學(xué)習(xí)方法獲得不錯(cuò)的效果,并且相繼發(fā)表了研究成果。
在本文中,我們?cè)敿?xì)分析了順式調(diào)控元件的研究現(xiàn)狀,重點(diǎn)關(guān)注了增強(qiáng)子調(diào)控元件的相關(guān)的各種研究方法。隨后,我們描述了使用機(jī)器
11、學(xué)習(xí)、深度學(xué)習(xí)解決相關(guān)問(wèn)題的一般方法以及它們之間的區(qū)別和優(yōu)劣。通過(guò)分析利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)識(shí)別增強(qiáng)子調(diào)控元件的各類方法,我們發(fā)現(xiàn)其中存在著準(zhǔn)確率低、泛化能力差、受限于數(shù)據(jù)來(lái)源等問(wèn)題。因此,我們構(gòu)建了一個(gè)基于深度學(xué)習(xí)的混合模型,起名為BiRen,它結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)于序列數(shù)據(jù)的表示能力以及能夠較好處理DNA序列長(zhǎng)距離依賴問(wèn)題的GRU單元雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BRNN),通過(guò)這個(gè)模型,我們可以只依賴DNA序列本身就能準(zhǔn)確識(shí)別增強(qiáng)子
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于隨機(jī)森林的外顯子剪接增強(qiáng)子識(shí)別.pdf
- 基于組蛋白修飾信息和DNA序列預(yù)測(cè)增強(qiáng)子的研究.pdf
- 2444.全基因組增強(qiáng)子調(diào)控網(wǎng)絡(luò)的識(shí)別與特征分析
- 山羊β—乳球蛋白調(diào)控序列及增強(qiáng)子序列共指導(dǎo)人胰島素原基因表達(dá)的研究.pdf
- 攜帶前列腺特異性膜抗原(PSMA)啟動(dòng)子-增強(qiáng)子的重組質(zhì)粒構(gòu)建及啟動(dòng)子-增強(qiáng)子調(diào)控活性的篩選.pdf
- 人類細(xì)胞系中遠(yuǎn)程增強(qiáng)子--啟動(dòng)子相互作用的識(shí)別研究.pdf
- RNA序列、位置及短序列增強(qiáng)子突變影響報(bào)告基因表達(dá).pdf
- 增強(qiáng)子、絕緣子和β-乳球蛋白調(diào)控序列啟動(dòng)功能基因在山羊乳腺上皮細(xì)胞中表達(dá)的影響.pdf
- 基于深度學(xué)習(xí)的動(dòng)作識(shí)別研究.pdf
- 基于深度學(xué)習(xí)的場(chǎng)景識(shí)別研究.pdf
- 基于深度學(xué)習(xí)的氣體識(shí)別研究.pdf
- 馬鈴薯增強(qiáng)子捕獲系的創(chuàng)建及鑒定.pdf
- 基于深度序列的人體行為識(shí)別研究.pdf
- 基于深度學(xué)習(xí)的Logo識(shí)別研究.pdf
- 山羊BLG調(diào)控序列及CMV增強(qiáng)子指導(dǎo)人胰島素原基因在細(xì)胞和小鼠中表達(dá).pdf
- 短序列增強(qiáng)子和Alu重復(fù)序列影響基因表達(dá)的實(shí)驗(yàn)研究和生物信息學(xué)分析.pdf
- 基于深度學(xué)習(xí)的說(shuō)話人識(shí)別研究.pdf
- 基于深度學(xué)習(xí)的維語(yǔ)語(yǔ)音識(shí)別研究.pdf
- 基于深度學(xué)習(xí)框架的動(dòng)作識(shí)別研究.pdf
- 基于深度學(xué)習(xí)的目標(biāo)識(shí)別研究.pdf
評(píng)論
0/150
提交評(píng)論