蛋白質(zhì)分子模式分析及識別研究.pdf_第1頁
已閱讀1頁,還剩155頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、蛋白質(zhì)是生命的物質(zhì)基礎,沒有蛋白質(zhì)就沒有生命。氨基酸是組成蛋白質(zhì)的基本單位,氨基酸通過脫水縮合連成蛋白質(zhì)鏈。蛋白質(zhì)的氨基酸序列是由對應基因所編碼。蛋白質(zhì)序列通過折疊構成一定的空間結構,從而發(fā)揮某一特定功能。蛋白質(zhì)的某些氨基酸殘基可以被翻譯后修飾而發(fā)生化學結構的變化,進而對蛋白質(zhì)進行激活或調(diào)控。蛋白質(zhì)能夠在細胞中發(fā)揮多種多樣的功能,涵蓋了細胞生命活動的方方面面。蛋白質(zhì)序列、結構、功能的研究對生命科學及制藥工程具有重要的意義。
  隨

2、著高通量技術的快速進步,實驗測定的蛋白質(zhì)序列數(shù)量呈指數(shù)增長。但是采用傳統(tǒng)生物實驗的方法決定蛋白質(zhì)序列的結構功能是相當?shù)馁M時費力。因此,已知序列的蛋白質(zhì)的數(shù)目同已知結構和功能的蛋白質(zhì)的數(shù)目之間的鴻溝有加速擴大到趨勢。采用計算的方法預測蛋白質(zhì)的結構和功能可以及時有效地彌補傳統(tǒng)生物實驗的不足。
  本論文基于先進的機器學習技術,以及蛋白序列特征、預測的結構特征、進化特征、物理化學特征等,開發(fā)設計出了蛋白質(zhì)序列分類和位點標記的計算方法,其

3、性能優(yōu)于當前已有的計算預測方法。特別地,本文重要的貢獻在于:芋螺毒素分類預測,蛋白質(zhì)信號肽分類和信號肽剪切位點識別,鈣激活蛋白酶底物剪切位點識別,原核蛋白中類泛素化位點發(fā)現(xiàn)。論文主要研究內(nèi)容和創(chuàng)新點如下:
  1.基于集成特征預測芋螺毒素超家族
  芋螺毒素是二硫化物豐富的無價的靶向通道肽,可以靶向神經(jīng)元感受器。在治療老年癡呆癥,帕金森癥,癲癇癥方面,芋螺毒素作為有效的藥物而展示出良好的應用前景。因此,為了進一步了解芋螺毒素

4、的生物和藥理功能,有必要首先對芋螺毒素的超家族進行計算預測分類。
  芋螺毒素蛋白質(zhì)的超家族類別是由多種因素共同決定的,而且可抽象為典型的多類分類問題?;诖颂攸c,本文提出了多特征集成預測的思想。首先創(chuàng)建了最新的基準數(shù)據(jù)集,然后提取芋螺毒素蛋白質(zhì)氨基酸序列的物理化學屬性特征,并進行小波變換之后采用隨機森林進行降維,同時蛋白質(zhì)序列氨基酸組成特征、蛋白質(zhì)序列的進化特征、蛋白質(zhì)序列的二級結構特征,隨后構建了多個一對多的支持向量機模型,最

5、終開發(fā)出了新穎的算法PredCSF算法,并將所開發(fā)出的PredCSF算法成功應用于芋螺毒素超家族分類預測。實驗結果表明:在本文新構建的基準數(shù)據(jù)集上,PredCSF能獲得90.65%的準確率?;谟舐荻舅氐鞍仔蛄械亩喾N特征,本文提出的方法能對芋螺毒素超家族進行有效的預測分類,這將極大地促進治療慢性疼痛,癲癇癥等疾病的藥物開發(fā)。
  2.基于擴散映射降維和子空間分類器判別芋螺毒素超家族
  為了進一步改善芋螺毒素超家族分類精度,

6、并針對提取芋螺毒素多因素特征后產(chǎn)生的高維數(shù)據(jù)問題,同時考慮到芋螺毒素超家族分類本質(zhì)是多類分類問題。本文提出了基于擴散映射進行數(shù)據(jù)降維,采用并改進本質(zhì)多類分類器HKNN,最后整體成功地應用于對芋螺毒素超家族的分類預測。
  首先,芋螺毒素蛋白質(zhì)序列的物理化學屬性、進化信息、預測的二級結構信息和氨基酸組成等作為特征被提取出來;其次,為了獲取數(shù)據(jù)幾何描述的有效表示,把馬爾可夫矩陣的特征函數(shù)看作是原數(shù)據(jù)集上的一個坐標系統(tǒng),基于擴散映射進行

7、數(shù)據(jù)降維;最后,考慮擴散空間中的局部密度信息,改進了局部超平面K近鄰子空間分類器(HKNN),提出了dHKNN算法進行芋螺毒素超家族的預測分類。在基準數(shù)據(jù)集上,本文提出的dHKNN通過嚴格的留一法交叉驗證測試,取得了91.90%的分類精度,顯示出良好的應用前景。
  3.基于特異位置氨基酸傾向性和條件隨機場預測蛋白質(zhì)N-端信號肽
  無論是在原核生物還是真核生物中,絕大部分的分泌性蛋白和許多內(nèi)在膜蛋白的靶向和易位,都必須依靠

8、蛋白質(zhì)的信號肽。在分子生物學中,一項重要的任務就是精確地預測識別蛋白質(zhì)的信號肽。蛋白質(zhì)的信號肽通常具有三個常見的結構域,中間一個是明顯的疏水區(qū)域,而非信號肽則沒有這種明顯的特征。信號肽剪切位點是由復雜的序列模式所決定的。
  首先,針對蛋白質(zhì)的信號肽具有疏水結構域特征,本文提出了一種新穎的判別評分方法,依靠集成疏水性比對和基于最高平均疏水位置的氨基酸傾向性,該方法成功地完成了信號肽和非信號肽的區(qū)分。結果顯示,對于三種不同物種,即真

9、核生物,革蘭氏陰性菌,革蘭氏陽性菌,在所構建的基準測試集上進行嚴格的留一法交叉測試,該方法分別能以96.3%,97.0%和97.2%的準確率區(qū)分三個物種的信號肽和非信號肽;其次,針對決定信號肽剪切位點的復雜氨基酸序列模式,本文把信號肽剪切位點的識別歸結為典型的序列標記問題而不是常規(guī)地分類問題。本文創(chuàng)新性地提出用概率圖模型來捕獲這些氨基酸序列模式關系,構建條件隨機場(CRF)模型成功地應用于信號肽剪切位點識別。實驗結果證明:本文所提出的基

10、于條件隨機場(CRF)的方法能分別以80.8%,89.4%,和74.0%的精度識別三個物種的信號肽的剪切位點。
  4.基于條件隨機場和多序列比對從跨膜螺旋中判別N-端信號肽
  盡管文獻已經(jīng)發(fā)表了很多從蛋白質(zhì)序列出發(fā)預測信號肽的方法并構建了相應從在線預測工具,但是所有這些方法在區(qū)分蛋白質(zhì)的信號肽和N-端跨膜螺旋都表現(xiàn)的能力較弱。如采用上面提到的信號肽預測方法進行全基因組識別研究,必然會得到大量來自N-端跨膜區(qū)域的假陽性預測

11、結果。如何盡量降低這類假陽性預測是一個亟待解決的重要問題。
  在此研究中,本文提出基于條件隨機場(CRF)算法并結合了多序列比對(Alignment)算法來整體完成蛋白質(zhì)信號肽的識別,同時完成對信號肽和跨膜螺旋區(qū)域的區(qū)分。條件隨機場(CRF)不僅能建模單氨基酸殘基的信息,而且能建模不同距離的氨基酸殘基對之間的關聯(lián)信息。采用多序列比對作為補充,能充分利用數(shù)據(jù)集中的同源信息。實驗結果表明:所提出的方法勝過了SignalP4.0。

12、r>  5.基于蛋白質(zhì)序列信息使用條件隨機場標記鈣蛋白酶底物剪切位點
  依賴于Ca2+的半胱氨酸蛋白酶中的鈣激活蛋白酶家族在許多生物過程中扮演至關重要的角色,而且同各種病理狀態(tài)密切相關。被激活的鈣蛋白酶可以有選擇地在特定的剪切位點剪切相關的底物蛋白,使完整的底物蛋白被分成可以執(zhí)行不同功能的多個片段。但是在現(xiàn)階段,由于相關的傳統(tǒng)生物實驗非常費時,而且價格昂貴,導致人類對于鈣激活蛋白酶的功能和他們的底物剪切機制的認知非常有限。計算預

13、測的傳統(tǒng)方式是,首先從整個蛋白質(zhì)序列中分離出包含潛在剪切位點的短的肽段,然后采用兩類分類器去預測識別。傳統(tǒng)方式的問題在于,由于在訓練數(shù)據(jù)中,負樣本遠遠多于正樣本,導致所構建的分類器存在顯著地偏向。本質(zhì)看來,識別鈣蛋白酶底物剪切位點是一個典型的序列標記問題,而且決定剪切位點的因素是多方面的,同時還存在極端類別不平衡問題。
  針對這些問題,本文提出了提取多角度特征,并分別建立條件隨機場(CRF)模型,采取結果融合的策略,總體開發(fā)出了

14、LabCaS算法。所提出的LabCaS算法被成功地應用于鈣蛋白酶底物剪切位點識別。在構建的基準數(shù)據(jù)集上,采用最嚴格的留一法測試,得到最優(yōu)的AUC值是0.862。同時,為了加速后基因組時代的大規(guī)模數(shù)據(jù)分析的進程,本文基于LabCaS算法不但進行了大規(guī)模的鈣激活蛋白酶底物剪切位點識別分析,而且還進行的具體的個案研究,為生物學家提供了豐富的計算分析結果。
  6.基于偽氨基酸組成和極端學習機識別原核蛋白質(zhì)中的類泛素化位點
  在結

15、核分枝桿菌中,為了進行選擇性的蛋白質(zhì)降解,原核的類泛素化蛋白依靠形成異構肽鍵而附著在底物蛋白的特異的賴氨酸殘基K上。作為最重要的一類原核蛋白的翻譯后修飾,原核中的類泛素化在調(diào)控廣泛的生物過程扮演至關重要的角色。為了全面深入地了解這些原核類泛素化相關的生物過程,類泛素化位點的識別是首要的步驟。而傳統(tǒng)的實驗室試驗方法識別類泛素化位點是相當費時費力的。類泛素化位點主要發(fā)生在賴氨酸K之上,而且與賴氨酸K附近的其他氨基酸殘基有關。具體抽象出來,就

16、是識別哪些包含賴氨酸K的肽段是類泛素化位點。
  為了及時有效地發(fā)現(xiàn)類泛素化位點,本文提出對包含賴氨酸K的肽段采取偽氨基酸組成(PseAAC)的編碼策略,這樣就能捕獲肽段內(nèi)的氨基酸之間的相關信息,采用極端學習機(ELM)構建預測模型,整體形成PupS算法。本文提出了一種基于偽氨基酸組成編碼和極端學習機的新穎計算預測器PupS,在所構建的訓練集上進行嚴格的留一法交叉驗證測試,獲得0.6483的AUC值,在所構建的獨立測試集上獲得0.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論