基于機(jī)器學(xué)習(xí)的蛋白質(zhì)結(jié)構(gòu)類(lèi)預(yù)測(cè)與質(zhì)量評(píng)估.pdf_第1頁(yè)
已閱讀1頁(yè),還剩61頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、蛋白質(zhì)是構(gòu)成單個(gè)細(xì)胞的基本有機(jī)物,是生命活動(dòng)的執(zhí)行者,其角色決定于它的功能,而蛋白質(zhì)功能主要由他們的結(jié)構(gòu)決定,因此研究蛋白質(zhì)的結(jié)構(gòu)對(duì)于認(rèn)識(shí)其功能具有很大的意義。但由于在生物體內(nèi)蛋白質(zhì)的組成復(fù)雜多樣,直接使用分子動(dòng)力學(xué)技術(shù)模擬蛋白質(zhì)折疊過(guò)程,不僅需要大量的計(jì)算資源,還需要對(duì)蛋白質(zhì)折疊過(guò)程有深刻的認(rèn)識(shí),很難快速準(zhǔn)確的實(shí)現(xiàn)結(jié)構(gòu)預(yù)測(cè)和模型質(zhì)量評(píng)估。隨著計(jì)算機(jī)信息技術(shù)的發(fā)展,研究基于機(jī)器學(xué)習(xí)(Machine Learning,ML)的蛋白質(zhì)結(jié)構(gòu)類(lèi)

2、預(yù)測(cè)和質(zhì)量評(píng)估是目前生物信息領(lǐng)域的一個(gè)研究熱點(diǎn)。
  本研究主要內(nèi)容包括:⑴構(gòu)筑基于屬性約減的蛋白質(zhì)結(jié)構(gòu)類(lèi)多分類(lèi)模型。在蛋白質(zhì)結(jié)構(gòu)類(lèi)分類(lèi)預(yù)測(cè)中,首先對(duì)于已知氨基酸序列的蛋白質(zhì),選擇不易丟失序列信息的偽氨基酸特征,然后針對(duì)蛋白質(zhì)序列特征表達(dá)存在信息冗余,考慮到結(jié)構(gòu)類(lèi)分類(lèi)是個(gè)多分類(lèi)問(wèn)題,提出利用ReliefF算法對(duì)蛋白質(zhì)結(jié)構(gòu)特征進(jìn)行約減,接著采用多個(gè)二分類(lèi)的SVM模型來(lái)構(gòu)造SVM多分類(lèi)器模型,最后對(duì)蛋白質(zhì)結(jié)構(gòu)類(lèi)進(jìn)行分類(lèi),盡管實(shí)驗(yàn)結(jié)果和

3、未進(jìn)行特征約簡(jiǎn)的方法相比,耗費(fèi)的時(shí)間減少近一半,但存在模型參數(shù)不好確定的問(wèn)題。⑵設(shè)計(jì)SAPSO算法,優(yōu)化蛋白質(zhì)結(jié)構(gòu)類(lèi)分類(lèi)模型參數(shù)。針對(duì)上述蛋白質(zhì)結(jié)構(gòu)類(lèi)多分類(lèi)模型參數(shù)不好確定的問(wèn)題,綜合模擬退火(Simulated Annealing,SA)算法跳出局部最優(yōu)解和粒子群(Particle Swarm optimization,PSO)算法收斂速度快的特點(diǎn),設(shè)計(jì)出一種適合蛋白質(zhì)分類(lèi)模型的模擬退火粒子群(SAPSO)算法以獲取優(yōu)化的模型參數(shù),然

4、后通過(guò)具體的蛋白質(zhì)分類(lèi)實(shí)驗(yàn),證明設(shè)計(jì)方法的有效性。⑶針對(duì)傳統(tǒng)蛋白質(zhì)模型質(zhì)量評(píng)估沒(méi)有考慮同源信息問(wèn)題的缺陷,建立了一種基于ML的蛋白質(zhì)模型質(zhì)量評(píng)估模型。將蛋白質(zhì)序列輸入到SWISS-MODEL中,自動(dòng)構(gòu)造出它的三維結(jié)構(gòu)。將蛋白質(zhì)序列和Model1序列輸入到BLAST系統(tǒng)中,提取序列比對(duì)的四個(gè)主要特征。在考慮同源信息的情況下,將提取的特征值作為L(zhǎng)S-SVM的輸入數(shù)據(jù)用來(lái)訓(xùn)練LS-SVM,并同時(shí)利用SAPSO算法對(duì)LS-SVM的參數(shù)尋優(yōu)。由最

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論