2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩135頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、本論文的研究?jī)?nèi)容是從結(jié)構(gòu)的角度,通過(guò)在進(jìn)化過(guò)程中相對(duì)保守,并且相互作用的結(jié)構(gòu)域(domain)來(lái)描述蛋白質(zhì)的相互作用。為此我們首先基于序列相似性的比較對(duì)生物序列數(shù)據(jù)進(jìn)行了同源(haomologous)聚類(lèi),同時(shí)我們歸納合并了所有已知的酵母和果蠅的蛋白質(zhì)相互作用數(shù)據(jù),對(duì)其進(jìn)行評(píng)估,提煉出高可信的相互作用數(shù)據(jù)。我們的聚類(lèi)技術(shù)和評(píng)估策略可以應(yīng)用于其它生物物種的聚類(lèi)分析和相互作用的評(píng)估。 因?yàn)樯锵到y(tǒng)在蛋白質(zhì)相互作用網(wǎng)絡(luò)方面是保守的,即

2、從序列到結(jié)構(gòu),進(jìn)而到相互作用網(wǎng)絡(luò)都存在著某種生物共性,這種共性或者一致性(universality)通??梢悦枋鰹橐环N模式保守的蛋白質(zhì)相互作用網(wǎng)絡(luò),而該網(wǎng)絡(luò)的基本構(gòu)成單元就是蛋白質(zhì)結(jié)構(gòu)域。由于當(dāng)前蛋白質(zhì)相互作用數(shù)據(jù)主要來(lái)自序列的相互作用,每條蛋白質(zhì)序列可能含有多條保守的結(jié)構(gòu)域,這樣相互作用的可能性就會(huì)成指數(shù)級(jí)的增長(zhǎng),使得尋找某一相關(guān)的相互作用變得異常困難。因此需要到找一種確定結(jié)構(gòu)域之間相互作用的途徑。為此我們對(duì)蛋白質(zhì)序列進(jìn)行了結(jié)構(gòu)域的劃

3、分和映射,并采用機(jī)器學(xué)習(xí)的方法提取出結(jié)構(gòu)域之間的相互作用??紤]到當(dāng)前只有一小部分結(jié)構(gòu)域具有三維結(jié)構(gòu)信息,我們?cè)谡撐闹刑岢隽艘环N系統(tǒng)的預(yù)測(cè)同源結(jié)構(gòu)的方法。特別是我們構(gòu)建了基于結(jié)構(gòu)域聚類(lèi)的模板數(shù)據(jù)庫(kù),提高了模板的涵蓋范圍。另外我們提出了一種以模板的三維結(jié)構(gòu)比對(duì)作為profile或者anchor的比-對(duì)算法,有效的提高了未知序列同相應(yīng)模板之間的比對(duì)準(zhǔn)確性,進(jìn)而提高了預(yù)測(cè)結(jié)構(gòu)的質(zhì)量。數(shù)據(jù)分析顯示,我們的方法可以是現(xiàn)有的同源建模(Homology

4、 Modeling)算法預(yù)測(cè)出近三分之二的蛋白質(zhì)結(jié)構(gòu)。最后,我們同時(shí)采用rigid body和flexible這兩種對(duì)接工具來(lái)研究結(jié)構(gòu)域?qū)雍笏纬珊铣审w的同源和一致性。 本論文的組織結(jié)構(gòu)如下: 第一章緒論,簡(jiǎn)要介紹了該論文的研究背景和意義,對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)拼接過(guò)程中所涉及到的研究?jī)?nèi)容和方法進(jìn)行了分類(lèi)介紹,并結(jié)合現(xiàn)有方法總結(jié)了所涉及研究?jī)?nèi)容存在的問(wèn)題。 第二章基于序列和結(jié)構(gòu)域相似性的蛋白質(zhì)序列聚類(lèi)。本論文的研

5、究?jī)?nèi)容是從結(jié)構(gòu)的角度,拼接出蛋白質(zhì)的相互作用網(wǎng)絡(luò),因此本課題的第一步工作是對(duì)蛋白質(zhì)序列進(jìn)行聚類(lèi)分析,我們的目的是將直向同源物進(jìn)行(orthologs)聚類(lèi)。首先我們利用BLSTAP算法對(duì)蛋白質(zhì)序列進(jìn)行相似性比較,構(gòu)建出比對(duì)間的相似距離矩陣,同時(shí)將蛋白質(zhì)結(jié)構(gòu)域作為一個(gè)附加的準(zhǔn)則來(lái)篩選出假的同源關(guān)系。然后將剩余的比對(duì)用圖論的理論進(jìn)行描述:節(jié)點(diǎn)為序列,邊為兩條序列間的對(duì)應(yīng)關(guān)系。最后我們采用Markov graph-flow算法對(duì)其進(jìn)行聚類(lèi)分析

6、。利用該算法,我們對(duì)六種真核生物的序列進(jìn)行了聚類(lèi)分析,其結(jié)果要明顯優(yōu)于NCBI和TIGR的聚類(lèi)結(jié)果。 第三章蛋白質(zhì)相互作用數(shù)據(jù)的整合。蛋白質(zhì)—蛋白質(zhì)相互作用是系統(tǒng)生物系的研究核心,生物體的各種代謝和調(diào)控途徑都是有蛋白質(zhì)—蛋白質(zhì)相互作用來(lái)體現(xiàn)的。但是通過(guò)試驗(yàn)手段獲得的相互作用數(shù)據(jù)包含著很多的錯(cuò)誤,曾經(jīng)的統(tǒng)計(jì)表明:僅僅有10%的相互作用數(shù)據(jù)可以支持不同的、獨(dú)立的試驗(yàn),而近50%的相互作用數(shù)據(jù)是假陽(yáng)性的。針對(duì)這一問(wèn)題,我們首先合并了所

7、有的公共數(shù)據(jù)庫(kù)(11個(gè))中關(guān)于酵母和蠕蟲(chóng)的蛋白質(zhì)相互作用數(shù)據(jù),通過(guò)交叉驗(yàn)證(cross-reference)并結(jié)合序列的信息,對(duì)這些數(shù)據(jù)進(jìn)行了提煉,刪除了其中的冗余信息。然后我們采用機(jī)器學(xué)習(xí)的方法對(duì)每一種實(shí)驗(yàn)方法賦予一定的權(quán)值,這樣對(duì)于每一個(gè)蛋白質(zhì)相互作用可以獲得一個(gè)分值,最終根據(jù)設(shè)置不同的cutoff可以篩選出高可信度(高分值)的相互作用數(shù)據(jù)。 第四章基于序列保守結(jié)構(gòu)域(domain)的同源建模算法。蛋白質(zhì)三維結(jié)構(gòu)特征是蛋白質(zhì)

8、功能分析、蛋白質(zhì)相互作用、進(jìn)化樹(shù)構(gòu)建和藥物設(shè)計(jì)等研究的基礎(chǔ)。通常蛋白質(zhì)結(jié)構(gòu)的確定取決于X-射線(xiàn)晶體衍射和核磁共振等試驗(yàn)方法,但是X-射線(xiàn)晶體衍射法非常耗時(shí),核磁共振又無(wú)法準(zhǔn)確地測(cè)定大蛋白質(zhì)分子的結(jié)構(gòu)。因此,利用計(jì)算技術(shù)開(kāi)發(fā)準(zhǔn)確、快速的蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)算法就顯得尤為關(guān)鍵和迫切。目前蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)算法主要分為以下三類(lèi):同源建模(Homology Modeling)、結(jié)構(gòu)模式預(yù)測(cè)(Threading)和從頭預(yù)測(cè)(ab initio)。其中

9、同源建模法采用已知的蛋白質(zhì)結(jié)構(gòu)作為模板,可以準(zhǔn)確地預(yù)測(cè)其它同源蛋白質(zhì)的結(jié)構(gòu),被認(rèn)為是當(dāng)前最成功的預(yù)測(cè)算法。 第五章基于結(jié)構(gòu)的蛋白質(zhì)相互作用網(wǎng)絡(luò)的拼接。因?yàn)榈鞍踪|(zhì)相互作用是通過(guò)保守的結(jié)構(gòu)域來(lái)體現(xiàn)的,因此結(jié)構(gòu)域被認(rèn)為是生物系統(tǒng)的最基本單位(building blocks)。綜合上述各章的研究成果,在所有的酵母、蠕蟲(chóng)和果蠅的序列中,我們從46,742個(gè)蛋白質(zhì)同源聚類(lèi)中提取出了135,744條蛋白質(zhì)相互作用,其中有6,679個(gè)蛋白質(zhì)同源

10、聚類(lèi)包含有多個(gè)物種,約占總數(shù)的15%。采用最大相似度估計(jì)(Maximum Likelihood Estimation,MLE)算法,我們將這些蛋白質(zhì)相互作用精簡(jiǎn)成33,068條結(jié)構(gòu)域間的相互作用,構(gòu)建出了結(jié)構(gòu)域之間的相互作用映射。另外,利用我們的同源建模算法,我們成功的預(yù)測(cè)出了酵母、蠕蟲(chóng)或者果蠅的167,300條蛋白質(zhì)結(jié)構(gòu)。我們從相互作用映射中挑選出至少含有3個(gè)已知結(jié)構(gòu),并且分別源自同樣的三個(gè)物種的相互作用對(duì)(interaction

11、pair),以此來(lái)確保其同源性。最后利用剛體(rigid-body)和柔性(flexible)的對(duì)接(docking)工具,即Zdock和Rosetta,從結(jié)構(gòu)域的角度論證了同源蛋白質(zhì)相互作用的保守一致性,為蛋白質(zhì)相互作用網(wǎng)絡(luò)的拼接提供了理論依據(jù)。 第六章結(jié)論。系統(tǒng)總結(jié)了該論文的各項(xiàng)研究成果,并討論了下一步的工作。 附錄一基于Smith-Waterman算法的生物序列并行比較。生物序列相似性比較是生物信息學(xué)中最常見(jiàn)的問(wèn)題

12、,其中基于動(dòng)態(tài)規(guī)劃思想的Smith-Waterman算法是相似性比較中最流行的算法。然而現(xiàn)有的并行Smith-Waterman都需要龐大的內(nèi)存,隨著生物數(shù)據(jù)的急劇增長(zhǎng),并行Smith-Waterman算法內(nèi)存空間的需求已經(jīng)成為一個(gè)需要緊迫解決的問(wèn)題?;谶@一問(wèn)題,我們提出了一種基于分而治之策略的并行Smith-Waterman算法,PSW-DC算法。其基本思想是:采用數(shù)據(jù)分割的方法給每個(gè)處理器分配一定的數(shù)據(jù),然后每個(gè)處理器獨(dú)立的運(yùn)行Sm

13、ith-Waterman算法,最后再把各個(gè)處理器計(jì)算的結(jié)果進(jìn)行合并,得到局部最優(yōu)比對(duì)序列。與現(xiàn)有的并行Smith-Waterman算法相比,該算法對(duì)內(nèi)存空間的需求有了很大的降低。在曙光20001并行機(jī)上進(jìn)行了模擬試驗(yàn),有效降低了算法對(duì)內(nèi)存的需求,提高了算法的運(yùn)算速度。 論文的主要貢獻(xiàn)本論文在蛋白質(zhì)序列同源聚類(lèi)、蛋白質(zhì)相互作用的評(píng)估和驗(yàn)證、蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測(cè)、蛋白質(zhì)相互作用網(wǎng)絡(luò)的拼接以及生物序列比對(duì)等關(guān)鍵問(wèn)題上展開(kāi)研究,取得如下成果:

14、 1.在蛋白質(zhì)序列同源聚類(lèi)方面,如何準(zhǔn)確、快速、自動(dòng)的對(duì)蛋白質(zhì)序列進(jìn)行聚類(lèi)一直是研究人員在努力解決的難題。基于蛋白質(zhì)結(jié)構(gòu)域序列的相似性,本文提出一種準(zhǔn)確的蛋白質(zhì)序列同源聚類(lèi)方法。該方法利用Markov Graph-Flow算法,可以自動(dòng)、準(zhǔn)確的聚類(lèi)orthologs(直向同源物)and in-paralogs(橫向同源物)。對(duì)多個(gè)物種序列的 聚類(lèi)結(jié)果顯示,其結(jié)果的精確度比NCBI和TIGR的結(jié)果有明顯的提高。該方法可以應(yīng)用于所

15、有已知真核生物的序列聚類(lèi)中,能夠大幅提高聚類(lèi)結(jié)果的準(zhǔn)確性。 2.通過(guò)試驗(yàn)確定的蛋白質(zhì)相互作用都存在一定范圍的誤差。我們合并了所有yeast和worm的蛋白質(zhì)相互作用數(shù)據(jù),提出了一種評(píng)價(jià)和交叉驗(yàn)證蛋白質(zhì)相互作用的方法。該方法采用機(jī)器學(xué)習(xí)的理論,從進(jìn)化的角度對(duì)每一相互作用的可信度進(jìn)行了評(píng)價(jià)。試驗(yàn)結(jié)果顯示,該方法可以篩選出高可信度的相互作用。另外該方法可以評(píng)價(jià)其它物種蛋白質(zhì)相互作用的可信度。 3.蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測(cè)一直是國(guó)際

16、上研究的熱點(diǎn)和難點(diǎn)問(wèn)題。本文為了解決同源比較建模(IIomology Modeling)算法的兩個(gè)瓶頸問(wèn)題:模板的選擇和目標(biāo)一模板序列比對(duì)的準(zhǔn)確性,提出了相應(yīng)的解決方案,完善了同源建模算法。在模板選擇方面,我們以結(jié)構(gòu)域?yàn)榛A(chǔ),通過(guò)構(gòu)建模板庫(kù)極大的提高模板的涵蓋范圍;針對(duì)目標(biāo)一模板序列比對(duì)的準(zhǔn)確性問(wèn)題,我們基于結(jié)構(gòu)域的三維結(jié)構(gòu)信息,提出了一種新的序列比對(duì)算法,該算法能夠產(chǎn)生更準(zhǔn)確的目標(biāo)一模板序列比對(duì)。采用所提出的方法,極大拓寬了已有同源建

17、模算法的應(yīng)用范圍。更精確的預(yù)測(cè)出了更多的蛋白質(zhì)結(jié)構(gòu)。 4.在蛋白質(zhì)相互作用網(wǎng)絡(luò)的拼接方面,由于確定結(jié)構(gòu)域一結(jié)構(gòu)域的相互作用一直是一個(gè)研究難點(diǎn),本文根據(jù)已知的蛋白質(zhì)一蛋白質(zhì)相互作用關(guān)系,構(gòu)建出結(jié)構(gòu)域一結(jié)構(gòu)域的相互作用映射。通過(guò)蛋白質(zhì)對(duì)接(docking)程序,我們從結(jié)構(gòu)域的角度論證了同源蛋白質(zhì)相互作用的保守一致性,從而為蛋白質(zhì)相互作用網(wǎng)絡(luò)的拼接提供了理論依據(jù)。 5.生物序列的相似性比較是生物信息學(xué)中最常見(jiàn)的問(wèn)題,其中基于動(dòng)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論