版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、目的:
蛋白質(zhì)-RNA相互作用(PRI)與基因表達(dá)調(diào)控等多種生物過程密切相關(guān),是一種基本的生物大分子相互作用。例如,細(xì)菌調(diào)控sRNA(small RNA,小RNA)Csr B與其靶標(biāo)蛋白Csr A等的結(jié)合可調(diào)控碳的攝入、細(xì)胞運(yùn)動(dòng)、生物膜形成、群落感應(yīng)與細(xì)菌致病性等。在真核生物中,許多非編碼RNA(non-codingRNA,ncRNA)可通過與蛋白質(zhì)結(jié)合而發(fā)揮多種功能。因此,構(gòu)建性能優(yōu)異的PRI預(yù)測模型具有重要意義,將為實(shí)驗(yàn)研
2、究PRI提供生物信息學(xué)支持。
目前,PRI的生物信息學(xué)預(yù)測方法可分為四類,分別為結(jié)合RNA的蛋白質(zhì)殘基預(yù)測、結(jié)合蛋白質(zhì)的RNA小片段預(yù)測、基于序列水平的PRI預(yù)測和基于結(jié)合位點(diǎn)水平的PRI預(yù)測。其中第一類模型,可以預(yù)測蛋白質(zhì)序列中與RNA結(jié)合的殘基,但缺點(diǎn)是無法找出與之結(jié)合的RNA序列或堿基。基于第二類模型,可以找出RNA序列中與蛋白質(zhì)相互作用的RNA結(jié)構(gòu)域信息,但不能輕易找出與之結(jié)合的蛋白?;诘谌惸P?,可以預(yù)測一個(gè)給定的
3、蛋白與一個(gè)給定的RNA是否發(fā)生相互作用,但不能確定它們的結(jié)合位點(diǎn)。而第四類模型則可以確定蛋白-RNA相互作用的結(jié)合位點(diǎn),缺點(diǎn)是假陽性率很高。因此,各類方法各有側(cè)重,我們在系統(tǒng)分析上述四類模型的基礎(chǔ)上,開展了第三類模型即基于序列水平的PRI研究,一方面,該項(xiàng)研究可以同時(shí)考慮蛋白與RNA序列,與前兩類模型相比,目標(biāo)更為明確。此外,該類模型的預(yù)測結(jié)果可以為第四類模型提供輸入,有助于降低假陽性與提高預(yù)測效率。
目前一般采用傳統(tǒng)的機(jī)器學(xué)
4、習(xí)方法構(gòu)建序列水平的PRI預(yù)測模型。然而,在傳統(tǒng)的機(jī)器學(xué)習(xí)方法中,需要深刻理解哪些特征與PRI有關(guān),而且即使選擇了正確的特征,也無法獲知其權(quán)重;此外,模型在訓(xùn)練中容易過擬合,即特征和權(quán)重完全適用于訓(xùn)練集,但不能確保測試集具有相同性能。為克服以上局限,我們探索了深度學(xué)習(xí)方法中的CNN(Convolutional Neural Network,卷積神經(jīng)網(wǎng)絡(luò))在PRI預(yù)測模型構(gòu)建中的應(yīng)用。我們所知,目前尚未見到基于深度學(xué)習(xí)的構(gòu)建PRI預(yù)測模型
5、的報(bào)道。
方法:
為構(gòu)建PRI預(yù)測模型,我們首先構(gòu)建分類器所需的訓(xùn)練集及測試集。截止到2017年2月6日,從PDB(Protein Data Bank,蛋白質(zhì)數(shù)據(jù)庫)中下載到分辨率不大于5.0?的蛋白質(zhì)-RNA復(fù)合物數(shù)據(jù)1370例。對復(fù)合物數(shù)據(jù)進(jìn)行長度(>30)、冗余(<50%)和相似性(<70%)等方面的過濾篩選,得到3761個(gè)蛋白質(zhì)-RNA對,包括1432個(gè)蛋白質(zhì)片斷和765個(gè)RNA片段。我們將其作為陽性樣本,即
6、相互作用的蛋白質(zhì)-RNA對。
在上述復(fù)合物數(shù)據(jù)中,隨機(jī)選取蛋白質(zhì)和RNA片段,與陽性樣本進(jìn)行比對,去除相似性較高(>70%)的相互作用對,從而得到對應(yīng)的陰性樣本庫。陰性樣本數(shù)量約為陽性樣本集的10倍,訓(xùn)練和測試時(shí),采用隨機(jī)抽取的方法,生成與陽性樣本集相當(dāng)?shù)年幮詷颖緮?shù)據(jù)集
除此之外,我們還對三個(gè)常用數(shù)據(jù)集進(jìn)行了測試。分別是數(shù)據(jù)集RPI2241、RPI369和RPI12737。其中RPI2241包括從PRIDB(Prot
7、ein-RNA Interface Database,蛋白質(zhì)-RNA相互作用數(shù)據(jù)庫)中提取的2241個(gè)蛋白質(zhì)-RNA對,RPI369數(shù)據(jù)集是RPI2241的子集去除了原數(shù)據(jù)集中的蛋白質(zhì)-核糖體RNA復(fù)合物,包含369個(gè)蛋白質(zhì)-RNA相互作用對,RPI12737數(shù)據(jù)集從NPInter V2.0數(shù)據(jù)庫中提取,包括12737對實(shí)驗(yàn)證實(shí)的蛋白質(zhì)-RNA對。對于每個(gè)蛋白質(zhì)-RNA對,我們從序列和二級結(jié)構(gòu)兩個(gè)角度編碼,對提取的特征進(jìn)行RBM(Res
8、tricted Boltzmann Machine,受限玻爾茲曼機(jī))變換,最終生成1024維的特征向量。
基于訓(xùn)練集,我們采用深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)的方法構(gòu)建預(yù)測模型DLPRI。模型DLPRI共有7層,不包括輸入。輸入為32×32即1024維特征向量,滑動(dòng)窗口大小為5×5。
第一層C1為卷積層,有28×28個(gè)節(jié)點(diǎn),設(shè)定有6個(gè)不同的C1層,每一個(gè)C1層內(nèi)的權(quán)值是相同的。特征映射結(jié)構(gòu)采用ReLU(Rectified Li
9、near Unit)函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。
第二層S2有14×14個(gè)節(jié)點(diǎn),同樣為6層,采取下采樣的方法,C1層四個(gè)點(diǎn)對應(yīng)著S2層一個(gè)點(diǎn),作加權(quán)平均。每個(gè)特征圖的大小是C1中特征圖大小的1/4(行和列各1/2)。
C3、S4同理,5-7層均為一維的全連接層。
結(jié)果:
首先,我們以數(shù)據(jù)集RPI3761為基礎(chǔ),采用十折交叉驗(yàn)證的方法(10-fold cross-vali
10、dation),對模型進(jìn)行了測試。該模型DLRPI在訓(xùn)練集上的平均分類精度達(dá)到96.7%,在測試集上的平均敏感性為91.2%,平均特異性為93.4%,敏感性和特異性均超過90%。
然后,我們以整個(gè)數(shù)據(jù)集為基礎(chǔ)構(gòu)建模型DLRPI,然后以3個(gè)數(shù)據(jù)集RPI369、RPI2241和RPI12737為獨(dú)立測試集來評價(jià)模型性能。由于我們構(gòu)建的訓(xùn)練集RPI3761,同RPI369和RPI2241一樣,均是來自PDB數(shù)據(jù)庫,它們之間有一些重疊
11、的樣本。為客觀評價(jià)模型性能,我們將數(shù)據(jù)集RPI369和 RPI2241中與RPI3761相同的樣本去除;之后,利用模型DLRPI來預(yù)測余下的樣本,其預(yù)測精度分別為73.2(RPI369)、86.7(RPI2241)和88.0(RPI12737)。結(jié)果表明,該模型在獨(dú)立測試集上具有較高的預(yù)測精度,可以用于新樣本即基于序列的蛋白-RNA相互作用預(yù)測研究,輔助實(shí)驗(yàn)驗(yàn)證。
最后,我們以構(gòu)造的數(shù)據(jù)集RPI3761以及多個(gè)公共數(shù)據(jù)集RPI
12、369、RPI2241和RPI12737為基礎(chǔ),采用DLRPI與其它三種模型分別進(jìn)行機(jī)器學(xué)習(xí),通過十折交叉驗(yàn)證的方法,評估模型性能。分析結(jié)果表明,除了在RPI12737數(shù)據(jù)集上性能稍遜LPIHN模型,對于其他的測試集,DLRPI的預(yù)測性能均排名第一。結(jié)果表明,與其他已有模型模型相比,DLRPI提取的特征更具代表性,對于人們識別RPI的本質(zhì)規(guī)律,可以起到一定的輔助與啟發(fā)作用。
結(jié)論:
深度學(xué)習(xí)方法是近幾年來最火熱的機(jī)器
13、學(xué)習(xí)方法,展現(xiàn)了強(qiáng)大的提取特征能力。目前尚沒有基于深度學(xué)習(xí)算法在蛋白質(zhì)-RNA相互作用上的應(yīng)用研究。本文采用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)方法,構(gòu)建了預(yù)測模型DLRPI,在獨(dú)立測試集上,與傳統(tǒng)的機(jī)器方法相比具有更好的敏感性和特異性。這說明深度學(xué)習(xí)算法在處理蛋白質(zhì)、RNA數(shù)據(jù)方面具有很好的適用性。
下一步,我們將在更多的獨(dú)立數(shù)據(jù)集上對模型進(jìn)行測試。一方面,從PDB數(shù)據(jù)庫得到的數(shù)據(jù)與體內(nèi)真實(shí)的數(shù)據(jù)之間存在一定差別,模型需要反映體內(nèi)真實(shí)生
14、物學(xué)過程;另一方面,對于實(shí)驗(yàn)得到的新數(shù)據(jù),DLRPI模型能夠有怎樣的預(yù)測精度還需要進(jìn)一步的驗(yàn)證。然后,將所有已知的RPI數(shù)據(jù)作為訓(xùn)練集,構(gòu)建模型,搭建蛋白質(zhì)-RNA相互作用預(yù)測網(wǎng)絡(luò)服務(wù)器,從而更好的為相關(guān)研究人員進(jìn)行實(shí)驗(yàn)驗(yàn)證,提供技術(shù)支持。
隨著高通量技術(shù)的發(fā)展,產(chǎn)生了大量RPI相關(guān)的數(shù)據(jù),但是PRI的作用機(jī)制仍然需要進(jìn)一步探討。我們講對隱層中的特征表示進(jìn)行深入的分析,希望能夠揭示出RPI的作用機(jī)理。
目前,人工智能
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于蛋白質(zhì)相互作用網(wǎng)絡(luò)的蛋白質(zhì)功能預(yù)測.pdf
- 基于機(jī)器學(xué)習(xí)的蛋白質(zhì)類別及蛋白質(zhì)-配體相互作用預(yù)測研究.pdf
- 從蛋白質(zhì)相互作用網(wǎng)絡(luò)預(yù)測未知蛋白質(zhì)功能.pdf
- 蛋白質(zhì)相互作用
- 基于序列的蛋白質(zhì)相互作用預(yù)測方法研究.pdf
- 基于蛋白質(zhì)相互作用網(wǎng)絡(luò)的代謝pathway預(yù)測.pdf
- 蛋白質(zhì)相互作用預(yù)測方法的研究.pdf
- 蛋白質(zhì)相互作用網(wǎng)絡(luò)演化模型.pdf
- 基于信噪比的蛋白質(zhì)相互作用的預(yù)測研究.pdf
- 基于蛋白質(zhì)相互作用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的蛋白質(zhì)功能模塊預(yù)測.pdf
- 蛋白質(zhì)-蛋白質(zhì)相互作用界面和熱點(diǎn)預(yù)測的方法研究.pdf
- 基于序列的蛋白質(zhì)-藥物相互作用預(yù)測研究.pdf
- 基于覆蓋算法的蛋白質(zhì)相互作用位點(diǎn)預(yù)測.pdf
- 基于pairwise核的蛋白質(zhì)相互作用對稱預(yù)測研究.pdf
- 基于多分類器組合的蛋白質(zhì)-蛋白質(zhì)相互作用位點(diǎn)預(yù)測研究.pdf
- 蛋白質(zhì)相互作用預(yù)測及其應(yīng)用的研究.pdf
- 基于多源數(shù)據(jù)融合的蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)構(gòu)建方法研究.pdf
- 基于序列從頭預(yù)測法的蛋白質(zhì)相互作用研究.pdf
- 基于智能計(jì)算的蛋白質(zhì)相互作用預(yù)測方法研究.pdf
- 基于多源數(shù)據(jù)融合的蛋白質(zhì)蛋白質(zhì)相互作用網(wǎng)絡(luò)構(gòu)建方法研究
評論
0/150
提交評論