版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、第七章 蛋白質(zhì)和RNA結構預測,生命科學與技術學院閻 愛 俠,蛋白質(zhì)是重要物質(zhì)基礎,人體的所有組織器官都會有蛋白質(zhì),蛋白質(zhì)是生命的物質(zhì)基礎。蛋白質(zhì)是人體的主要“建筑材料”。沒有蛋白質(zhì)的供給,人就不可能從3~4千克的新生兒長成50~60千克重的成年人。一般說,蛋白質(zhì)約占人體全部質(zhì)量的18%,最重要的還是其與生命現(xiàn)象有關。蛋白質(zhì)和核酸是生命存在的主要形式。,面對堆積如山的生物學數(shù)據(jù)……,蛋白質(zhì)的功能,蛋白質(zhì)是調(diào)控和實現(xiàn)所有生物功能的
2、分子機器。例如: 結構蛋白-膠原酶-維持和增強結締組織 機械酶-肌漿球蛋白-實現(xiàn)宏觀和微觀上的運動 各種酶-參與生理功能 某些蛋白質(zhì)與DNA或RNA相互作用產(chǎn)生新的蛋白質(zhì),蛋白質(zhì)折疊,蛋白質(zhì)是線性的氨基酸合成的結果,但在生物體內(nèi)會迅速折疊成一個緊密的球狀結構。1.大多數(shù)蛋白質(zhì)只有在折疊成天然球狀結構的時候才能具有完全的生物活性。2.去折疊(變性)蛋白質(zhì)在允許重新折疊的實驗條件下可以折疊到原來的結構。,重大挑戰(zhàn)性問題,
3、蛋白質(zhì)的結構預測?。。壳?,還沒有一個算法能夠很好地預測出一個蛋白的三維結構形狀),蛋白質(zhì)結構預測,通過計算(如分子力學、分子動力學等)來進行結構預測(1)對于天然蛋白結構和未折疊結構,兩者之間的能量差非常?。?kcal/mol 數(shù)量級)(2)研究蛋白質(zhì)結構的計算量非常大,7.1 氨基酸,,蛋白質(zhì)由20種不同大小、形狀和化學特性的氨基酸組成。氨基酸結構:,蛋白質(zhì)是由二十種不同的氨基酸構成的 20種標準氨基酸都是L-氨基
4、酸特征:L-氨基酸分子中的α碳(分子中第2個碳)結合著一個堿性的氨基和一個酸性的羧基,此外Cα還結合著一個H原子和一個側(cè)鏈基團(用R表示)。 每一種氨基酸的R都是不同的,側(cè)鏈上的碳依次是第3、4、5和6位碳。,A.疏水氨基酸(hydrophobic amino acid)B.極性氨基酸(polar amino acid)C.帶電氨基酸(charged amino acid),氨基酸通常按性質(zhì)被分為3類,Company
5、 Logo,疏水性氨基酸,這類氨基酸的側(cè)鏈大多或者全部由碳原子和氫原子組成,因此這些氨基酸就不太可能與水分子形成氫鍵。如:酪氨酸、色氨酸、苯丙氨酸等。,酪氨酸,苯丙氨酸,色氨酸,Company Logo,極性氨基酸,這類氨基酸的側(cè)鏈通常由氧原子和/或氮原子組成,它們比較容易與水分子形成氫鍵。如甘氨酸、半胱氨酸、酪氨酸等。,甘氨酸,半胱氨酸,酪氨酸,pH值表示溶液中H+濃度的負對數(shù)。55,000,000個水分子中有一個水分子離解成H+和
6、OH-,與之相對應的濃度是1×10-7M,因此中性溶液的pH=7。生理條件(pH7附近)下氨基酸呈現(xiàn)兼性離子形式,pH,和水分子相似,許多氨基酸的側(cè)鏈也含有可離解的質(zhì)子。氨基酸的pKa值是一個表示氨基酸釋放其可離解質(zhì)子的相對難易程度的量。 當pH值比氨基酸的pKa值小一個pH單位時,大約會有90%的氨基酸被質(zhì)子化;當pH值比氨基酸的pKa值小兩個pH單位時,大約會有99%的氨基酸被質(zhì)子化。,pKa,,pKa,
7、,,pKa,利用Handerson-Hasselalch公式,可算出在任一pH條件下一種氨基酸的各種離子的比例: [質(zhì)子受體]pH = pKa + log ------------ [質(zhì)子供體],蛋白質(zhì)的等電點是指當這種蛋白質(zhì)在溶液中的靜電荷為零時溶液的pH值。蛋白質(zhì)的等電點可以反映組成這種蛋白質(zhì)的氨基酸的總體信息。例如如果蛋
8、白質(zhì)的pI>7,我們就可以知道蛋白質(zhì)中的堿性氨基酸比酸性氨基酸多。,對R側(cè)鏈基不解離的氨基酸:pI = (pKa1+pKa2)/2,pI,,甘氨酸滴定曲線,幾種氨基酸的解離常數(shù)和等電點,7.2 多肽的組成(一級結構),幾個氨基酸組成的氨基酸鏈稱作肽,一條較長的氨基酸鏈通常稱為多肽或者蛋白質(zhì)。當兩個氨基酸實現(xiàn)共價結合的時候,一個氨基酸的氨基丟失一個氫,同時另一個氨基酸丟失一個氧和一個氫,脫水生成肽鍵。,7.2 多肽的組成(一級結構),
9、與DNA 分子和 RNA 分子一樣,多肽也具有特定的方向性。多肽的氨基端(N端)具有一個氨基,同時在羧基端(C端)具有一個羧基。 蛋白質(zhì)序列通常被認為是從N端起始,然后逐漸向C端發(fā)展的。 組成蛋白質(zhì)的氨基酸序列完全決定了蛋白質(zhì)的三維形狀和理化特性,也最終決定了它的生物功能。,7.3 二級結構,作用 估計蛋白的結構類型 提高同源模建的準確性 三級結構預測的起點方法 Chou-Fasman(經(jīng)驗參數(shù)法) Garnier
10、(GOR法),二級結構,7.3 二級結構的類型,(1) α螺旋: 肽鏈主鏈繞假想的中心軸盤繞成螺旋狀,一般都是右手螺旋結構,螺旋是靠鏈內(nèi)氫鍵維持的。每個氨基酸殘基(第n個)的羰基與多肽鏈 C 端方向的第4個殘基(第4+n個)的酰胺氮形成氫鍵。,7.3 二級結構的類型,(2)β折疊: 肽鍵平面折疊成鋸齒狀, 相鄰肽鏈主鏈的N-H 和 C=O 之間形成有規(guī)則的氫鍵, 在β-折疊中, 所有的肽鍵都參與鏈間氫鍵的形成, 氫鍵
11、與β-折疊的長軸呈垂直關系.,7.3 二級結構的類型,(3)β轉(zhuǎn)角: 蛋白質(zhì)二級結構類型之一,由4個氨基酸殘基組成,其中第一個殘基的 CO 基團和第四個殘基的 NH基團之間形成氫鍵,使多肽鏈的方向發(fā)生“U”形改變。,有些蛋白質(zhì)中含有大量的α螺旋如血紅蛋白和肌紅蛋白而一些蛋白質(zhì)中則不含或者僅含很少的α 螺旋如鐵氧蛋白有些蛋白質(zhì)的二級結構以β折疊為主如免疫球蛋白例:肽鏈Ala(A)-Glu(E)-Leu(L)-M
12、et(M) 傾向于形成α螺旋 肽鏈Pro(P)-Gly(G)-Tyr(Y)-Ser(S)則不會形成α螺旋,7.3.1 骨架柔性,多肽鏈中氨基酸的非側(cè)鏈原子構成了蛋白骨架。骨架中共價鍵的鍵長和平面鍵角或多或少都是固定的。只有兩個鍵可以旋轉(zhuǎn):(1) 氨基氮原子和α碳原子之間形成的鍵的旋轉(zhuǎn)角 (Φ); (2)α碳原子和羧基碳原子之間形成的鍵的旋轉(zhuǎn)角 (Ψ);,旋轉(zhuǎn)角,phi (N-Cα) psi (C α –C(羥基)
13、),Company Logo,一個蛋白質(zhì)的構象可以通過每個氨基酸的Φ和Ψ角來表示,但是物理上并不能確實觀察到所有的Φ和Ψ角,因為一些Φ和Ψ角的組合可能導致骨架上相鄰殘基側(cè)鏈原子的空間碰撞。Ramachandran圖顯示了除甘氨酸殘基外的其他氨基酸殘基中允許出現(xiàn)的Φ和Ψ值。,Ramachandran圖,甘氨酸沒有側(cè)鏈,因此甘氨酸殘基允許出現(xiàn)的Φ和Ψ值的范圍比其他氨基酸殘基都要大。,Company Logo,預測二級結構的算法中使用了多
14、種計算方法如神經(jīng)網(wǎng)絡、離散態(tài)模型、隱馬爾科夫模型、最近鄰分類和進化計算等。 目前大多數(shù)二級結構預測的算法都是對一系列由BLAST、FASTA和CLUSTALW算法產(chǎn)生的經(jīng)過比對的序列進行二級結構預測。 現(xiàn)在的二級結構預測算法,如 PHD 和 Predator,將蛋白序列和每個氨基酸的相對保守程度作為輸入,預測準確率能達到70%-75%。,7.3.2 預測的準確度,每種氨基酸出現(xiàn)在各種二級結構中傾向或者頻率是不同的例如:Glu
15、主要出現(xiàn)在α螺旋中 Asp 和 Gly 主要分布在轉(zhuǎn)角中 Pro 也常出現(xiàn)在轉(zhuǎn)角中,但是絕不會出現(xiàn)在α螺旋中所以可以根據(jù)每種氨基酸殘基形成二級結構的傾向性(Chou-Fasman)或者統(tǒng)計規(guī)律(GOR)進行二級結構預測,蛋白質(zhì)二級結構預測方法,該方法由 Chou 和 Fasman 在 70年代提出來,是一種基于單個氨基酸殘基統(tǒng)計的經(jīng)驗預測方法。通過統(tǒng)計分析,獲得的每個殘基出現(xiàn)于特定二級結構
16、構象的傾向性因子,進而利用這些傾向性因子預測蛋白質(zhì)的二級結構.每個氨基酸都有幾個構成參數(shù),P(a),P(b) 和 P(turn), 分別表示相應的氨基酸形成α螺旋、β折疊和β轉(zhuǎn)角的偏向性。另外,每個氨基酸同時也有4個轉(zhuǎn)角參數(shù)f(i), f(i+1), f(i+2), f(i+3), 分別對應于這種氨基酸出現(xiàn)在發(fā)夾轉(zhuǎn)角第一、第二、第三和第四位的頻率。,Chou-Fasman法,(1) 尋找所有相鄰的6個殘基中至少4個殘基的 P(a)
17、 >100的區(qū)域。(2) 對于 (1) 中發(fā)現(xiàn)的每一個區(qū)域,從區(qū)域兩端向外延伸,直至出現(xiàn) 4 個連續(xù)殘基的P (a) 5,并且區(qū)域的ΣP(a) > ΣP(b),那么這樣的一個區(qū)域就被預測為α螺旋。,α螺旋的預測規(guī)則,β折疊的預測規(guī)則,(1) 尋找所有相鄰的6個殘基中至少4個殘基的P(b) >100的區(qū)域。(2) 對于(1) 中發(fā)現(xiàn)的每一個區(qū)域,從區(qū)域兩端向外延伸,一旦所有的區(qū)域延伸結束后,當一個區(qū)域中所有
18、殘基的P(b)的均值大于100 并且ΣP(b) > ΣP(a) 時,這個區(qū)域就預測為β折疊。,假如預測出的螺旋區(qū)域與預測出的折疊區(qū)域有重疊的話,那么如果重疊區(qū)域的ΣP(b) > ΣP(a),就預測為β折疊;反之,則預測為α螺旋。,(1)對于每個位于i位置上的殘基計算它的轉(zhuǎn)角偏向性P(t)。計算方法如下: P(t) = 第i位上的殘基的 f(i) 值 × 第 i+1位上的殘基的 f(i+1)值 × 第i+
19、2位上的殘基的 f(i+2) 值×第 i+3 位上的殘基的 f(i+3)值(2)若一段區(qū)域內(nèi)的氨基酸滿足如下條件,就預測這段區(qū)域是一個從第i位氨基酸開始的發(fā)夾轉(zhuǎn)角。 a. P(t) > 0.000075; b. 從第i位到第i+3位的4個殘基的P(turn)參數(shù)的平均值>100; c. 從第i位到第i+3位的4個殘基的ΣP(turn) > ΣP(a),且
20、ΣP(turn) > ΣP(b);,β轉(zhuǎn)角的預測規(guī)則,是一種基于信息論和貝葉斯統(tǒng)計學的方法。 GOR將蛋白質(zhì)序列當作一連串的信息值來處理。 GOR方法不僅考慮被預測位置本身氨基酸殘基種類的影響,而且考慮相鄰殘基種類對該位置構象的影響。,GOR方法,GOR方法將序列中的每一個殘基與和它N端緊鄰的8個殘基以及和它 C 端緊鄰的 8個殘基一起考慮,通過對已知的二級結構的蛋白樣本的分析,計算出中心殘基的二級結構分別為螺旋、折疊和轉(zhuǎn)
21、角時每種氨基酸出現(xiàn)在窗口中各個位置的頻率,產(chǎn)生一個 17×20 的得分矩陣。然后預測序列中每個殘基形成這些二級結構的概率。GOR 方法的預測準確率約為 65%。,GOR方法,序列窗口 中心殘基,,GOR方法考慮窗口中各個殘基對中心殘基二級結構的支持程度,,,,,,,,,,,,,,,,,,,,(1)三級結構 一個折疊的多肽鏈的整體三維形狀稱為蛋白質(zhì)的三級結構。,7.4 三級結構和四級結構,(2)四級
22、結構 幾個多肽相互作用形成一個功能蛋白質(zhì),多酶復合物中也會出現(xiàn)蛋白質(zhì)與蛋白質(zhì)的相互作用,這種分子間相互作用稱為蛋白質(zhì)的四級結構。,7.4 三級結構和四級結構,(1) 理論分析方法通過理論計算(如分子力學、分子動力學計算)進行結構預測。(2)統(tǒng)計的方法 對已知結構的蛋白質(zhì)進行統(tǒng)計分析,建立序列到結構的映射模型,進而對未知結構的蛋白質(zhì)根據(jù)映射模型直接從氨基酸序列預測結構。 包括:經(jīng)驗性方法結構規(guī)律提取方法
23、同源模型化方法,7.4 三級結構和四級結構預測方法,影響三、四級結構的幾類作用力:,(1)疏水性 疏水作用力通常被認為是蛋白質(zhì)折疊成一個緊密球狀結構的幾種基礎力之一。 大多數(shù)蛋白質(zhì)的天然結構都有一個疏水核心和一個與溶液相接觸的表面,疏水核心中掩藏了疏水殘基,使得它們與溶液相隔離,而與溶液相接觸的表面大多或者全部由極性殘基和帶電殘基組成。 鐮刀形細胞貧血癥正是由于β球蛋白表面的單個殘基由帶電的谷氨酸突變到疏水的纈氨酸,就導致
24、了細胞形態(tài)的徹底變化,最終使人產(chǎn)生貧血、勞累甚至是壞疽的嚴重病癥。,(2)二硫鍵 當兩個半胱氨酸殘基中的巰基相互靠近時,它們可以被氧化而產(chǎn)生共價的二硫鍵,從而將在蛋白質(zhì)一級結構中可能相距很遠的殘基交叉連接起來。 二硫鍵是蛋白質(zhì)中唯一非骨架原子的共價交聯(lián)結合,它們對穩(wěn)定蛋白質(zhì)的折疊起著非常明顯的作用。,影響三、四級結構的幾類作用力:,(3)活性結構與最穩(wěn)定結構 由于蛋白質(zhì)折疊過程中的自由度非常大,因此一般不可能評價蛋
25、白質(zhì)的天然狀態(tài)是不是實際中最穩(wěn)定(能量最優(yōu))的構象。但是,自然選擇很明顯會選擇既有活性又有穩(wěn)定性的蛋白質(zhì)。 如果蛋白質(zhì)一級結構中的突變降低了蛋白質(zhì)的穩(wěn)定性,在進化中就會產(chǎn)生不利因素,那么在選擇的時候這些突變體就會被剔除。,影響三、四級結構的幾類作用力:,Levinthal悖論,1968年,C. Levinthal 在他的一篇論文中指出,即使一個多肽鏈的長度不長,它可能采取的折疊方式也非常多。如果要對一個多肽的所有可能出現(xiàn)的構象進行隨
26、機搜索,那么可能要花費很多年的時間。這個發(fā)現(xiàn)被稱為Levinthal悖論。 Levinthal 悖論認為蛋白折疊的過程是從未折疊的狀態(tài)開始,然后逐漸經(jīng)過一系列越來越穩(wěn)定的中間態(tài),最終折疊成蛋白質(zhì)的天然狀態(tài)。至于這樣的折疊途徑是否最終在構象的能量處于全局最小點時結束,目前還有很多爭論。,7.5 蛋白質(zhì)折疊建模算法,(1) 網(wǎng)格模型(2) 去網(wǎng)格模型(3)&
27、#160; 能量函數(shù)和優(yōu)化,7.5.1 網(wǎng)格模型,H-P(疏水-極性)模型:該模型有三種簡化:(1)蛋白質(zhì)中各個氨基酸殘基的α碳原子都位于二維網(wǎng)格 或三維網(wǎng)格的格點上;(2)疏水作用是蛋白折疊中唯一的重要因素;(3)通過計算疏水殘基接觸的數(shù)目代替構象的能量計算。雖然這樣的處理非常簡單,但是通過H-P模型的計算分析,能夠發(fā)現(xiàn)蛋白質(zhì)折疊的一些機制。,H-P模型,H-P模
28、型是基于疏水殘基接觸來進行打分的。除了多肽鏈中相鄰的疏水殘基之外,每一個相互靠近的疏水接觸對能量的貢獻都設為 -1,最優(yōu)的構象就是所有可能的構象中具有最多疏水接觸的那個構象。上圖中二維和三維構象的得分都是-3。,黑色為疏水殘基,白色為極性殘基。N端為1號殘基,位于(0,0)處,下一個位于(1,0) 處。,疏水拉鏈 (hydrophobic zipper) 機制,K.Dill 提出了疏水拉鏈機制作為形成二級結構的可能折疊機制。疏水拉鏈
29、機制是指蛋白鏈上的疏水殘基(表示為黑色圓圈)由于疏水作用移到一起,從而使得極性殘基產(chǎn)生了一個環(huán)。當這個過程不斷重復,就形成了一個反平行β折疊片。P145:圖7.9,網(wǎng)格模型中的構象表示方法,(1) 絕對方向表示法 (absolute direction representation) 將第一個殘基放在網(wǎng)格的(0,0)位置上,然后描述前面一個殘基到下一個殘基的移動方向。二維模型中,每一個位置上可選擇的方向包括上下左
30、右四個方向,用 U、D、L、R表示。,(R,R,D,L,D,L,U,L,U,U,R),網(wǎng)格模型中的構象表示方法,(1) 絕對方向表示法 (absolute direction representation) 三維模型中,每一個位置上可選擇的方向包括上下左右前后六個方向,分別用 U、D、L、R、F、B 表示。,(R,B,U,F,L,U,R,B,L,L,F),網(wǎng)格模型中的構象表示方法,(2) 相對方向表示法: 將第一個殘基放在
31、網(wǎng)格的(0,0)位置上,然后利用每個殘基主鏈的轉(zhuǎn)動方向來表示每個位置上的殘基的方向。二維模型中,每一個位置上可選擇的方向包括左、右、前三個方向,用 L、R、F 表示。,(F,F,R,R,L,R,R,L,R,F,R),網(wǎng)格模型中的構象表示方法,(2) 相對方向表示法: 三維模型中,每一個位置上可選擇的方向包括上、下、左、右、前五個方向,分別用 U、D、L、R、F表示。,(F,L,U,U,R,U,U,L,L,F,L),殘基碰撞問題,使
32、用上述兩種方法表示時,會遇到一個關鍵問題,那就是一些構象中兩個殘基會出現(xiàn)在同一個位置上。比如, 一個二維構象用相對法表示法表示時,如果它的起始前四個殘基是 (L,L,L,L),那么這個構象就會有兩個殘基位于原點(0,0)上,從而導致殘基碰撞(bump),或原子空間碰撞。解決這個問題的方法包括:(1)給每一個具有碰撞的構象分配一個非常高的能量值,因而在搜索能量最低構象時可以有效地去除這些碰撞的構象。(2)優(yōu)先排序法,即每個殘基對應
33、的方向不唯一,比如, 在二維模型中,某一殘基對應的方向可能會是 {L,F,R},表示這個殘基最可能對應的方向為左,其次為前,再次為右。,7.5.2 去網(wǎng)格模型,如果在蛋白質(zhì)模型中取消氨基酸定位于網(wǎng)格點的限制,那么蛋白模型就可以更真實地模擬出蛋白的實際構象。如果采取完整骨架模型,并將模型中的 phi 角和 psi 角的取值范圍定義為Ramachandran 圖中所用允許出現(xiàn)的phi 角和 psi 角的值,那么這種去網(wǎng)格折疊模型模擬出的小多
34、肽的構象與實驗測出的真實構象會非常接近。 去網(wǎng)格模型的誤差通常用預測構象和實際構象中α碳原子的均方根偏差 (RMSD) 來計算。α碳原子的RMSD是指當預測構象和實際構象重疊在一起時,兩種構象中每個α碳原子位置的Euclidean平方距離的總和。,7.5.2 去網(wǎng)格模型,隨著蛋白模型與實際情況越來越相符,模型的復雜性也越來越大??梢灾豢紤]α碳原子,也可以考慮所有的骨架原子,甚至所有的骨架原子和側(cè)鏈原子。側(cè)鏈也可以考慮剛性、
35、半柔性和完全柔性。側(cè)鏈 剛性側(cè)鏈:X-射線晶體結構中每種氨基酸出現(xiàn)最多的構象; 半柔性側(cè)鏈:可以采用類似的經(jīng)驗性方法得到; 從一系列 的X-射線晶體結構得到側(cè)鏈的多種構象,形狀類似的為一組。每一組的平均構象稱為一個旋轉(zhuǎn)異構體。在半柔性模型中,每個側(cè)鏈的構象可以采用任意一種最常出現(xiàn)的旋轉(zhuǎn)異構體 (rotamer)。,,分子疊合圖,除了要考慮疏水作用,蛋白折疊的能量函數(shù)中還要考慮到氫鍵、二硫橋的形成、靜電作用、范德華力
36、以及溶劑作用。由于這些力中每一個力的相對作用還很難通過實驗來計算,因此尋找一個合適的蛋白折疊復合能量函數(shù)仍然是一個研究熱點。 我們可以通過理論方法,針對范德華力、氫鍵、溶劑、靜電和其它力對一個已折疊蛋白總體穩(wěn)定性的相對作用來建立能量函數(shù)。它的目標是得到一個近似的能量函數(shù)或者力場,那些已知結構的蛋白質(zhì)結晶構象在這個能量函數(shù)中處于一個最小能量的狀態(tài)。例如: ΔG = ΔGvanderwaals + ΔGH-bonds + ΔGsol
37、vent + ΔGcoulomb,7.5.3 能量函數(shù)和優(yōu)化,如何尋找一些可行的能量函數(shù),本質(zhì)上是分子力學的問題。而且,科學家確實已經(jīng)設計出了許多有效的能量函數(shù)。但是從頭開始預測蛋白結構的方法由于種種原因還得不到令人滿意的結果。Folding@Home程序利用CPU的空閑時間來對蛋白折疊進行計算。對于一個特定蛋白質(zhì)的計算,它首先被分成幾個不同的部分,然后這些不同的計算部分通過Internet被分配給不同的運行Folding@Home
38、程序的計算機來計算。最后,每個機器將得到的結果返回給服務器,服務器再對這些結果進行合并和處理。,7.5.3 能量函數(shù)和優(yōu)化,7.6結構預測,雖然很多蛋白折疊模型使得我們能夠越來越多地了解蛋白質(zhì)的折疊過程以及蛋白質(zhì)折疊過程中涉及的各種分子力,但是目前還沒有一種從頭開始進行蛋白質(zhì)折疊的算法能夠很準確地模擬出一些大蛋白質(zhì)的空間結構。蛋白質(zhì)預測方法:(1)比較建模(同源建模)(2)線索法:反向折疊蛋白,7.6.1 同源建模,同源建模是通
39、過與相近蛋白的結構進行比較來預測目標蛋白的結構的方法。這種方法依賴于目標序列和已知結構蛋白的序列相似度的強弱,依賴于折疊編碼。也就是說,蛋白質(zhì)氨基酸序列間的變化如果很小的話,那么蛋白質(zhì)的三級結構的變化也很小。,序列 結構 功能,,功能,,,,蛋白質(zhì)結構預測問題,,功能,,,,,,….-Gly-Ala-Glu-Phe-….,,功能,,,,,計算機輔助同源建模,同源建模的過程,(1)尋找一系列與目標蛋白相近的蛋白質(zhì)的
40、結構集。 通常利用像BLAST和FASTA這樣的序列數(shù)據(jù)庫搜索工具看來得到與目標蛋白相近的序列集,進而得到這些序列的結構集。由于這些結構在建模中是用作模板結構的,因此這些結構也稱為模板結構。,同源建模的過程,(2)將目標序列與模板蛋白的序列進行比對。 用像CLUSTALW這樣的多重比對工具產(chǎn)生比對,發(fā)現(xiàn)目標序列中與所有模板結構高度保守的區(qū)域以及保守性不高的區(qū)域。當目標序列和模板序列相似度小于30%時,
41、自動多重比對方法就不能得到高質(zhì)量的比對。此時,必須對序列不必對進行人工調(diào)節(jié)。,同源建模的過程,(3)建立模型。 最普遍的方法就是將模板結構疊加起來,然后找到結構上保守的區(qū)域。接著,這些模板結構中保守的區(qū)域和與之相對應的蛋白骨架比對排列,為要建立的模型形成一個核心。當模板蛋白的結構相似性比較低時,就必須利用目標蛋白二級結構預測的方法、序列相似性方法和人工評估的方法為這一模型選擇正確的結構。先建立模型的核心,再為Loop區(qū)建模
42、。,同源建模的過程,(4)Loop區(qū)建模: 使用最多的兩種方法是: a.從已知的Loop區(qū)構象庫中選擇一個最優(yōu)的環(huán)區(qū)構象; b.實行構想搜索和評估。 盡管有很多方法可以用來對環(huán)區(qū)建模,但要得到一個長于6個殘基的環(huán)區(qū)的準確構象仍然是相當困難的。,同源建模的過程,(5)側(cè)鏈建模: 一旦建立了骨架的模型,仍然必須決定側(cè)鏈原子的位置。同樣地,可以采用許多不同的方法,包括對旋轉(zhuǎn)異構
43、體庫進行搜索的方法、有限分子動力學的方法以及其他的一些方法。,同源建模的過程,(6)對模型的評估: 許多軟件包可以實現(xiàn)對預測出的蛋白結構的質(zhì)量進行評估,這些軟件包括PROCHECK、WHATCHECK、Verify-3D等。評估的算法通常是尋找結構中出現(xiàn)的一些異常構象,比如φ和ψ角的值是否位于Ramachandran圖中允許出現(xiàn)的范圍之內(nèi)、是否出現(xiàn)原子空間碰撞以及是否有一些不經(jīng)常出現(xiàn)的鍵長和鍵角。,7.6.2 線索法:
44、反向蛋白折疊,對于一個目標蛋白,可以通過搜索那些假設與目標蛋白具有相同構象的蛋白而快速建立起這個未知蛋白三維結構的大致模型。假設得到了一個特定的構象,那么就能使用蛋白折疊算法中同樣的評估方法來決定是否接受這一構象。這種先假設一個特定構象然后對這一構象進行評估的過程稱為蛋白折疊的線索法,有時也被認為是蛋白質(zhì)折疊的逆過程,故稱為反向蛋白折疊。一些數(shù)據(jù)庫將具有相似結構的蛋白劃成不同的分類。要決定一個蛋白屬于哪個折疊家族,可以先將一個家族中
45、所有結構的平均構象作為這個家族的結構,然后得到目標蛋白采用這一構象時的結構,再進行質(zhì)量評估。,7.7 RNA二級結構的預測,一級結構: 構成RNA分子的核苷酸序列。二級結構: 單鏈RNA分子自身纏繞配,通過氫鍵作用等形成的諸如莖區(qū)、發(fā)夾、突出、偽結等結構。,點矩陣法作圖動態(tài)規(guī)劃法最大匹配法最小自由能法等。Zuker的Mfold程序是使用最多的程序包之一,它通過一系列最近鄰能量規(guī)則計算一個結
46、構的能量來預測RNA的二級結構。,7.7 RNA二級結構的預測方法,蛋白質(zhì)是具有各種各樣不同三維結構的復雜生物大分子。利用神經(jīng)網(wǎng)絡等模型可以通過蛋白質(zhì)的一級結構來預測二級結構,并且準確率已經(jīng)相當高(>75%)三級結構和四級結構的預測還很困難,但已經(jīng)有許多不同的算法可以在不同的抽象水平上來解決蛋白折疊預測問題。蛋白折疊算法、同源建模法和線索法使我們越來越了解蛋白質(zhì)的折疊過程,越來越準確的預測蛋白的結構。,本章小結,P154:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于結構生物信息學的蛋白質(zhì)設計.pdf
- 第七章_蛋白質(zhì)檢驗
- 第七章蛋白質(zhì)的分離純化和表征
- 第七章蛋白質(zhì)的分離純化和表征
- 蛋白質(zhì)可溶性預測的生物信息學模型及應用.pdf
- 生物信息學 第十一章利用蛋白質(zhì)序列的預測方法
- 大豆蛋白質(zhì)代謝關鍵基因和轉(zhuǎn)錄因子的生物信息學預測.pdf
- 生物信息學概論
- 生物信息學方法研究蛋白質(zhì)相互作用.pdf
- 2447.蛋白質(zhì)羥基化的生物信息學方法研究
- 氧化還原類蛋白質(zhì)翻譯后修飾的結構生物信息學研究.pdf
- 蛋白質(zhì)泛素化的生物信息學分析.pdf
- 蛋白質(zhì)翻譯后修飾和細胞信號通路的生物信息學.pdf
- 13071.蛋白質(zhì)共價修飾及鋅離子結合的生物信息學
- 基因密碼子使用和蛋白質(zhì)結構的生物信息學分析.pdf
- 蛋白質(zhì)指紋圖譜和生物信息學在乳腺癌中的研究.pdf
- 結核分枝桿菌中小RNA的生物信息學預測.pdf
- 農(nóng)業(yè)昆蟲中微RNA基因的生物信息學預測.pdf
- 人附睪蛋白質(zhì)組學研究——技術平臺的建立和生物信息學分析.pdf
- GPI-PLD基因與酶蛋白質(zhì)結構的生物信息學分析.pdf
評論
0/150
提交評論