版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、序列分析,一、堿基組成,DNA序列一個顯而易見的特征是四種堿基類型的分布。盡管四種堿基的頻率相等時對數(shù)學(xué)模型的建立可能是方便的,但幾乎所有的研究都證明堿基是以不同頻率分布的。,表1包含了9個完整DNA分子序列的資料,表2的數(shù)據(jù)來自兩個胎兒球蛋白基因(Gr和Ar),每個基因具有三個外顯子和兩個內(nèi)含子(shen等1981)。這兩個例子說明序列內(nèi)和序列間堿基具有不同的頻率。在基因每一側(cè)的500 個任意堿基區(qū)域被稱為“側(cè)翼”,基因間區(qū)域是指兩個
2、基因間的其余序列。,表1 九種完整DNA序列的堿基組成,表2 人類胎兒球蛋白基因不同區(qū)段的堿基組成,二.堿基相鄰頻率,分析DNA序列的主要困難之一是堿基相鄰的頻率不是獨立的。堿基相鄰的頻率一般不等于單個堿基頻率的乘積,例:雞血紅蛋白β鏈的mRNA編碼區(qū)的438個堿基,圖1 雞β球蛋白基因編碼區(qū)的DNA序列 (GenBank:CHKHBBM,記錄號J00860),表3 圖1雞β球蛋白基因序列的相鄰堿基分布,在編碼區(qū),存在某種約束
3、來限制DNA序列編碼氨基酸。在密碼子水平上,這一約束與堿基相鄰頻率有關(guān)。 表4列出了遺傳密碼和圖1序列中各密碼子數(shù)量。盡管數(shù)目很小,難以作出有力的統(tǒng)計結(jié)論,但編碼同一氨基酸的不同密碼子(同義密碼子)好像不是等同存在的。這種密碼子偏倚必定與兩堿基相鄰頻率水平有關(guān)。 表4還清楚地表明,由于密碼子第3位置上堿基的改變常常不會改變氨基酸的類型,因而對第3位置上堿基的約束要比第 2位堿基小得多。,表4 64種可能的堿基三聯(lián)體密碼子
4、及相應(yīng)的氨基酸數(shù)(據(jù)圖1序列),相鄰堿基之間的關(guān)聯(lián)將導(dǎo)致更遠(yuǎn)堿基之間的關(guān)聯(lián),這些關(guān)聯(lián)延伸距離的估計可以從馬爾科夫鏈(Markov chain)理論得到(Javare和Giddings,1989),三.同向重復(fù)序列分析,除了分析整個序列堿基關(guān)聯(lián)程度的特征外,我們常對尋找同向重復(fù)序列(direct repeats)之類的問題感興趣。Karlin等(1983)給出了完成這一分析的有效算法。該法采用由特定的幾組堿基字母組成的不同亞序列或稱為字碼
5、(word)。只需要對整個序列搜索一次。給一堿基賦以值α,例如A、C、G、T的值為0、1、2、3。由X1、X2、…、Xk 共k個字母組成的每一種不同的字碼按:,計算字碼值。這些值的取值范圍為1到4k,例如:5字碼TGACC的值為1+3×44+2×43+0×42+1×41+1×40=459??上葟牡蚹值的字碼開始搜索。記錄序列中每一個位置k字碼的字碼值。只有在發(fā)現(xiàn)k字碼長度重復(fù)的那些位置考
6、慮進(jìn)行長度大于k的字碼搜索。,序列TGGAAATAAAACGTAAGTAG中所有堿基2字碼(k=2)的初始位置和字碼值。對于完全重復(fù)、長度大于2的同向重復(fù)或亞序列的搜索可只限于2字碼重復(fù)的初始位置。 在本例中只有4個重復(fù)的2堿基重復(fù)序列。例如,在位置4、5、8、9、10和15均發(fā)現(xiàn)了字碼值為1的堿基重復(fù)序列?!挠兄貜?fù)的2堿基為起點的3字碼值中發(fā)現(xiàn)字碼值為1、45和49的序列有重復(fù);以每一重復(fù)的3堿基為起點的4字碼搜索未能發(fā)現(xiàn)更長的
7、重復(fù)序列。,表5 序列TGGAAATAAAACGTAAGTAG的3字碼值和位置(Karlin, 1983),四、RNA二級結(jié)構(gòu)預(yù)測,盡管現(xiàn)有一些RNA折疊程序可以預(yù)測RNA二級結(jié)構(gòu),但這類分析仍然是一門藝術(shù)。RNA折疊有助于找出RNA分子中可能的穩(wěn)定莖區(qū),但對給定的RNA分子來說,這一結(jié)果的生物學(xué)意義究竟有多大,還是一個未知數(shù)。即使有此局限性,二級結(jié)構(gòu)的預(yù)測還是有助于找出mRNA控制區(qū)以及RNA分子中可能形成穩(wěn)定折疊結(jié)構(gòu)的區(qū)段。,五、
8、從序列中尋找基因,1.基因及基因區(qū)域預(yù)測,基因按其功能可分為結(jié)構(gòu)基因和調(diào)控基因:結(jié)構(gòu)基因可被轉(zhuǎn)錄形成mRNA,并進(jìn)而轉(zhuǎn)譯成多肽鏈;調(diào)控基因是指某些可調(diào)節(jié)控制結(jié)構(gòu)基因表達(dá)的基因。在DNA鏈上,由蛋白質(zhì)合成的起始密碼開始,到終止密碼子為止的一個連續(xù)編碼序列稱為一個開放閱讀框(Open Reading Frame,ORF)。結(jié)構(gòu)基因多含有插入序列,除了細(xì)菌和病毒的DNA中ORF是連續(xù)的,包括人類在內(nèi)的真核生物的大部分結(jié)構(gòu)基因為斷裂基因,即其編
9、碼序列在DNA分子上是不連續(xù)的,或被插入序列隔開。斷裂基因被轉(zhuǎn)錄成前體mRNA,經(jīng)過剪切過程,切除其中非編碼序列(即內(nèi)含子),再將編碼序列(即外顯子)連接形成成熟mRNA,并翻譯成蛋白質(zhì)。假基因是與功能性基因密切相關(guān)的DNA序列,但由于缺失、插入和無義突變失去閱讀框而不能編碼蛋白質(zhì)產(chǎn)物。,一種典型的真核蛋白質(zhì)編碼基因的結(jié)構(gòu)示意圖。其編碼序列(外顯子)是不連續(xù)的,被非編碼區(qū)(內(nèi)含子)隔斷。,所謂基因區(qū)域預(yù)測,一般是指預(yù)測DNA序列中編碼蛋
10、白質(zhì)的部分,即外顯子部分。 不過目前基因區(qū)域的預(yù)測已從單純外顯子預(yù)測發(fā)展到整個基因結(jié)構(gòu)的預(yù)測。這些預(yù)測綜合各種外顯子預(yù)測的算法和人們對基因結(jié)構(gòu)信號(如TATA盒等)的認(rèn)識,預(yù)測出可能的完整基因,基因區(qū)域的預(yù)測是一個活躍的研究領(lǐng)域,先后有一大批預(yù)測算法和相應(yīng)程序被提出和應(yīng)用,其中有的方法對編碼序列的預(yù)測準(zhǔn)確率高達(dá)90%以上,而且在敏感性和特異性之間取得了很好的平衡,預(yù)測方法中,最早是通過序列核苷酸頻率、密碼子等特性進(jìn)行預(yù)測(如最長OR
11、F法等),隨著各類數(shù)據(jù)庫的建立和完善,通過相似性列線比對也可以預(yù)測可能的基因。同時,一批新方法也被提了出來,如隱馬爾可夫模型(Hidden Markov Model,HMM)、動態(tài)規(guī)劃法(dynamic programming)、法則系統(tǒng)(ruled-based system)、語言學(xué)(linguistic)方法、線性判別分析(Linear Discriminant Analysis,LDA)、決策樹(decision tree)、拼接
12、列線(spliced alingment)、博利葉分析(Fourier analysis)等。 下表列出了claverie(1997)對部分程序預(yù)測基因區(qū)域能力的比較結(jié)果,表中同時列出了相應(yīng)算法和程序的網(wǎng)址。,目前基因區(qū)域預(yù)測的各種算法均存在以下2個問題,(1)目前算法對基因中的非編碼區(qū)和基因間序列不加任何區(qū)別,所以預(yù)測出的基因仍然是不完全的,對5‘和3‘非編譯區(qū)(UTR,untranslated region)的預(yù)測基本上還是空白;
13、,(2)目前大多數(shù)算法都是基于已知基因序列。如相似性列線比較算法是完全依賴于已知的序列,而象HMM之類的算法都需要對已知的基因結(jié)構(gòu)信號進(jìn)行學(xué)習(xí)或訓(xùn)練,由于訓(xùn)練所用的序列畢竟是有限的,所以對那些與學(xué)習(xí)過的基因結(jié)構(gòu)不太相似的基因,這些算法的預(yù)測效果就要大打折扣了,要解決以上兩個問題,需要對基因結(jié)構(gòu)進(jìn)行更深入的研究,尋找隱藏在基因不同結(jié)構(gòu)中的內(nèi)在統(tǒng)計規(guī)律。,2.發(fā)現(xiàn)基因的一般過程,從序列中發(fā)現(xiàn)基因可以理解為基因區(qū)域預(yù)測和基因功能預(yù)測2個層次,
14、第一步:獲取DNA目標(biāo)序列,① 如果你已有目標(biāo)序列,可直接進(jìn)入第2步;,② 可通過PubMed查找你感興趣的資料;通過GenBank或EMBL等數(shù)據(jù)庫查找目標(biāo)序列,第二步:查找ORF并將目標(biāo)序列翻譯成蛋白質(zhì)序列,利用相應(yīng)工具,如ORF Finder、Gene feature(Baylor College of Medicine)、GenLang(University of Pennsylvania)等,查找ORF并將DNA序列翻譯成蛋白
15、質(zhì)序列,第三步:在數(shù)據(jù)庫中進(jìn)行序列搜索,可以利用BLAST進(jìn)行ORF核苷酸序列和ORF翻譯的蛋白質(zhì)序列搜索,第四步:進(jìn)行目標(biāo)序列與搜索得到的相似序列的整體列線(global alignment),雖然第三步已進(jìn)行局部列線(local alignment)分析,但整體列線有助于進(jìn)一步加深目標(biāo)序列的認(rèn)識,進(jìn)行多序列列線(multiple sequence alignment)和獲得列線區(qū)段的可視信息??煞謩e在AMAS(Oxford Univ
16、ersity)和BOXSHADE(ISREC,Switzerland)等服務(wù)器上進(jìn)行,第五步:查找基因家族,第六步:查找目標(biāo)序列中的特定模序,① 分別在Procite、BLOCK、Motif數(shù)據(jù)庫進(jìn)行profile、模塊(block)、模序(motif)檢索;,② 對蛋白質(zhì)序列進(jìn)行統(tǒng)計分析和有關(guān)預(yù)測,第七步:預(yù)測目標(biāo)序列結(jié)構(gòu),可以利用PredictProtein(EMBL)、NNPREDICT(University of Califor
17、nia)等預(yù)測目標(biāo)序列的蛋白質(zhì)二級結(jié)構(gòu),第八步:獲取相關(guān)蛋白質(zhì)的功能信息,為了了解目標(biāo)序列的功能,收集與目標(biāo)序列和結(jié)構(gòu)相似蛋白質(zhì)的功能信息非常必要。可利用PubMed進(jìn)行搜索,第九步:把目標(biāo)序列輸入“提醒”服務(wù)器,如果有與目標(biāo)序列相似的新序列數(shù)據(jù)輸入數(shù)據(jù)庫,提醒(alert)服務(wù)會向你發(fā)出通知??蛇x用Sequence Alerting(EMBL)、Swiss-Shop(Switzerland)等服務(wù)器,3.解讀序列(making sen
18、se of the sequence),大致有2條途徑可以發(fā)現(xiàn)基因:(1)基于同源性的方法,包括已知mRNA序列的應(yīng)用;(2)基因家族和特殊序列間的比較。最初的方法包括利用各種計算機手段分析外顯子和其它序列信號,如酶切位點,六、基于編碼區(qū)特性:最長ORF法,基因區(qū)域或蛋白質(zhì)編碼區(qū)的識別,特別是對高等真核生物基因組DNA序列中編碼區(qū)的識別仍未能實現(xiàn)完全自動化。將每條鏈按6個讀框全部翻譯出來,然后找出所有可能的不間斷開放閱讀框(ORF
19、)往往有助于基因的發(fā)現(xiàn),預(yù)測基因組的全部編碼區(qū)或稱為開放閱讀框的方法概括來說也可以分為三類:,一類是基于編碼區(qū)所具有的獨特信號,如始起密碼子、終止密碼子等;,二是基于編碼區(qū)的堿基組成不同于非編碼區(qū),這是由于蛋白質(zhì)中20種氨基酸出現(xiàn)的概率、每種氨基酸的密碼子兼并度和同一種氨基酸的兼并密碼子使用頻率不同等原因造成的;,三是通過同源性比較搜尋蛋白質(zhì)庫或dbEST庫尋找編碼區(qū)。前二類方法主要是利用編碼區(qū)的特性來尋找,下面對這二類方法做簡單描述,
20、最長ORF法:在細(xì)菌基因組中,蛋白質(zhì)編碼基因從起始密碼ATG到終止密碼平均有100bp,而300bp長度以上的ORF平均每36Kb才出現(xiàn)一次,所以只要找出序列中最長的ORF(>300bp)就能相當(dāng)準(zhǔn)確地預(yù)測出基因,利用編碼區(qū)與非編碼區(qū)密碼子選用頻率的差異進(jìn)行編碼區(qū)的統(tǒng)計學(xué)鑒別方法:由于內(nèi)含子的進(jìn)化不受約束,而外顯子則受到選擇壓力,因此內(nèi)含子的序列要比外顯子更隨機。這是目前各種預(yù)測程序中被廣泛應(yīng)用的一種方法,如GCG(Genetic
21、 Computer Group 研制,一種通用核酸、蛋白質(zhì)分析軟件包)的TestCode、美波士頓大學(xué)GeneID和Baylor Medcine College的BCM Gene Finder等程序均利用了這一方法,CpG島:CpG島(CpG island)一詞是用來描述哺乳動物基因組DNA中的一部分序列,其特點是胞嘧啶(C)與鳥嘌呤(G)的總和超過4種堿基總和的50%,即每10個核苷酸約出現(xiàn)一次雙核苷酸序列CG。具有這種特點的序列僅占
22、基因組DNA總量的10%左右。從已知的DNA序列統(tǒng)計發(fā)現(xiàn),幾乎所有的管家基因(House-Keeping gene)及約占40%的組織特異性基因的5‘末端含有CpG島,其序列可能包括基因轉(zhuǎn)錄的啟動子及第一個外顯子。因此,在大規(guī)模DNA測序計劃中,每發(fā)現(xiàn)一個CpG島,則預(yù)示可能在此存在基因。另外,AT含量也可以作為編碼區(qū)的批示指標(biāo)之一,七、序列比對,相似性和同源性,局部相似性和整體相似性,相似性分?jǐn)?shù)矩陣,概念:,數(shù)據(jù)庫的搜索,FastA,
23、BLAST,數(shù)據(jù)庫搜索的基礎(chǔ)是序列的相似性比對,而尋找同源序列則是數(shù)據(jù)庫搜索的主要目的之一。 所謂同源序列,簡單地說,是指從某一共同祖先經(jīng)趨異進(jìn)化而形成的不同序列。同源性可以用來描述染色體—“同源染色體”、基因—“同源基因”和基因組的一個片斷—“同源片斷” 必須指出,相似性(similarity)和同源性(homology)是兩個完全不同的概念。,相似性和同源性,相似性是指序列比對過程中用來描述檢測序列和目標(biāo)序列之間相同D
24、NA堿基或氨基酸殘基順序所占比例的高低。相似性本身的含義,并不要求與進(jìn)化起源是否同一,與親緣關(guān)系的遠(yuǎn)近、甚至于結(jié)構(gòu)與功能有什么聯(lián)系。 當(dāng)相似程度高于50%時,比較容易推測檢測序列和目標(biāo)序列可能是同源序列;而當(dāng)相似性程度低于20%時,就難以確定或者根本無法確定其是否具有同源性。 總之,不能把相似性和同源性混為一談。所謂“具有50%同源性”,或“這些序列高度同源”等說法,都是不確切的,應(yīng)該避免使用。,而同源又有兩種不同的情況即垂
25、直方向的(orthology)與水平方向的(paralogy)。,直系同源(orthology)是比較基因組學(xué)中最重要的定義。直系同源的定義是: (1)在進(jìn)化上起源于一個始祖基因并垂直傳遞(vertical descent)的同源基因; (2)分布于兩種或兩種以上物種的基因組; (3)功能高度保守乃至于近乎相同,甚至于其在近緣物種可以相互替換; (4)結(jié)構(gòu)相似; (5)組織特異性與亞細(xì)胞分布相似,鑒定直系同源的實際操作標(biāo)準(zhǔn)(p
26、ractical criteria)為: 如基因組Ⅰ中的A基因與基因組Ⅱ中的A‘基因被認(rèn)為是直系同源,則要求: (1)A‘的產(chǎn)物比任何在基因組Ⅱ中所發(fā)現(xiàn)的其它基因產(chǎn)物都更相似于A產(chǎn)物; (2)A‘與A的相似程度比在任何一個親緣關(guān)系較遠(yuǎn)的基因組中的任一基因都要高; (3)A編碼的蛋白與A‘編碼的蛋白要從頭到尾都能并排比較,即含有相似以至于相同的模序(motif),旁系同源(paralogy)基因是指同一基因組(或同系物種的基因組)
27、中,由于始祖基因的加倍而橫向(horizontal)產(chǎn)生的幾個同源基因。,直系與旁系的共性是同源,都源于各自的始祖基因。其區(qū)別在于:在進(jìn)化起源上,直系同源是強調(diào)在不同基因組中的垂直傳遞,旁系同源則是在同一基因組中的橫向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定義上對功能上沒有嚴(yán)格要求,可能相似,但也可能并不相似(盡管結(jié)構(gòu)上具一定程度的相似),甚至于沒有功能(如基因家族中的假基因)。旁系同源的功能變異可能是橫向加倍后的重排變
28、異或進(jìn)化上獲得了另一功能,其功能相似也許只是機械式的相關(guān)(mechanistically related),或非直系同源基因取代新產(chǎn)生的非親緣或遠(yuǎn)緣蛋白在不同物種具有相似的功能。,局部相似性和整體相似性,序列比對的基本思想,是找出檢測序列和目標(biāo)序列的相似性。比對過程中需要在檢測序列或目標(biāo)序列中引入空位,以表示插入或刪除(圖2)。,圖2 序列比對,圖中“-”表示插入和刪除,用字符表示相同的殘基,“+”表示相似殘基,序列比對的最終實現(xiàn),必
29、須依賴于某個數(shù)學(xué)模型。不同的模型,可以從不同角度反映序列的特性,如結(jié)構(gòu)、功能、進(jìn)化關(guān)系等。很難斷定,一個模型一定比另一個模型好,也不能說某個比對結(jié)果一定正確或一定錯誤,而只能說它們從某個角度反映了序列的生物學(xué)特性。此外,模型參數(shù)的不同,也可能導(dǎo)致比對結(jié)果的不同。,序列比對的數(shù)學(xué)模型大體可以分為兩類,一類從全長序列出發(fā),考慮序列的整體相似性,即整體比對;第二類考慮序列部分區(qū)域的相似性,即局部比對。 局部相似性比對的生物學(xué)基礎(chǔ)是蛋白質(zhì)
30、功能位點往往是由較短的序列片段組成的,這些部位的序列具有相當(dāng)大的保守性,盡管在序列的其它部位可能有插入、刪除或突變。此時,局部相似性比對往往比整體比對具有更高的靈敏度,其結(jié)果更具生物學(xué)意義。,區(qū)分這兩類相似性和這兩種不同的比對方法,對于正確選擇比對方法是十分重要的。應(yīng)該指出,在實際應(yīng)用中,用整體比對方法企圖找出只有局部相似性的兩個序列之間的關(guān)系,顯然是徒勞的;而用局部比對得到的結(jié)果也不能說明這兩個序列的三維結(jié)構(gòu)或折疊方式一定相同。
31、 BLAST和FastA等常用的數(shù)據(jù)庫搜索程序均采用局部相似性比對的方法,具有較快的運行速度,而基于整體相似性比對的數(shù)據(jù)庫搜索程序則需要超級計算機或?qū)S糜嬎銠C才能實現(xiàn)。,有2種經(jīng)典方法可以計算兩條序列間的最適聯(lián)配。Needleman-Wunsch算法是一種整體聯(lián)配(global alignment)算法,最佳聯(lián)配(兩條蛋白質(zhì)序列具有最多匹配殘基)中包括了全部的最短匹配序列。 Smith-Wateman算法是在Needleman-
32、Wunsch算法基礎(chǔ)上發(fā)展而來的,它是一種局部聯(lián)配(Local alignment)算法。 這二種算法均可以用于核酸和蛋白質(zhì)序列。在給定空位罰值和替換矩陣情況下,它們總是能給出具有最高聯(lián)配值的聯(lián)配。但是,這個聯(lián)配并不需要達(dá)到生物學(xué)意義上的顯著水平。,許多程序可通過匿名ftp服務(wù)用于兩條序列的聯(lián)配計算。GCG軟件包中,BESFIT和GAP程序便是用于兩對序列的聯(lián)配。在一些網(wǎng)站可以進(jìn)行兩條序列的聯(lián)配分析,例如:ALIGN(http:
33、//genome.eerie.fr/fasta/alignquery.html)/Align(http://www.mips.biochem.mpg.de/mips.de/mips/programs/align.html)。ALIGN允許用戶提供序列進(jìn)行聯(lián)配,允許選擇替換矩陣,但不能設(shè)置空位罰值。Align只能進(jìn)行數(shù)據(jù)庫中已有序列間的聯(lián)配分析。,從整體上分析兩個序列的關(guān)系,即考慮序列總長的整體比較,用類似于使整體相似 (global s
34、imilarity)最大化的方式,對序列進(jìn)行聯(lián)配。兩個不等長度序列的聯(lián)配分析必需考慮在一個序列中圈掉一些堿基或在另一序列作空位(gap)處理。 Needleman 和Wunsch(1970)的法則為這些步驟提供了實例。這一算法是為氨基酸序列發(fā)展的,但也可以用于核苷酸序列。算法最初尋求的是使兩條序列間的距離最小。盡管這類距離的元素是以一種特定的方式定義的,但該算法的良好特性在于它確定了最短距離。這是一個動態(tài)規(guī)劃(dynamic p
35、rogramming)的方法。,Needleman-Wunsch算法,Needleman-Wunsch算法,將兩條聯(lián)配的序列沿雙向表的軸放置。從任一堿基對,即表中的任一單元開始,聯(lián)配可延三種可能的方式延伸:如果堿基不匹配,則每一序列加上一個堿基,并給其增加一個規(guī)定的距離權(quán)重;或在一個序列中增加一個堿基而在另一序列中增加一個空位或反之亦然。引入一個空位時也將增加一個規(guī)定的距離權(quán)重。,Needleman-Wunsch算法,因此,表中的一個單
36、元可以從(至多)三個相鄰的單元達(dá)到。我們把到左上角單元距離最小的方向看作相似序列延伸的方向。等距離時意味著存在兩種可能的方向。將這些方向記錄下來,并在研究了所有的單元之后,沿著記錄的方向就有一條路徑可從右下角(兩個序列的末端)追蹤到左上角 (兩個序列的起點)。由此所產(chǎn)生的路徑將給出具有最短距離的序列聯(lián)配。,Needleman-Wunsch算法,以兩個短序列CTGTATC和CTATAATCCC為例:,設(shè)堿基錯配時距離權(quán)重為1,引入一個空位
37、時距離權(quán)重為3。該圖邊緣的行和列作為起始條件增加到表中。在單元5行3列,即相應(yīng)較短序列(第二序列)的第2個T堿基和較長序列(第一序列)的第1個T堿基位置,有三種可能的距離增量。設(shè)在各序列中增加堿基T時 (從4行2列移動)對距離的貢獻(xiàn)為0。從5行2列的位置作水平移動(等價于增加第二序列的堿基T而在第一序列引入一個空位),在本例中增加一個罰值3。從3列4行向該單元作垂直移動,使第一序列增加堿基T而第二序列引入一個空位,結(jié)果也得到一個罰值3。
38、因此從該單元(5行3列)所得到的最小距離的延伸方向是沿對角線和水平方向。在表中這兩個方向用箭頭表示。這兩種最短方向都使從左上角到該單元的距離為6。沿箭頭所指方向在表中從右下角向左上角追蹤,得到6種可能的聯(lián)配:,在上述6種聯(lián)配中,距離均為10,即在較短序列中有6個匹配堿基、1個錯配堿基和3個空位,Needleman-Wunsch算法,當(dāng)兩個序列被聯(lián)配時,通過計算其重排序列(shuffed version)的聯(lián)配距離,可以得到這兩個序列間的
39、最小距離估計。如果實際得到的聯(lián)配距離小于重排序列距離的95%,則表明實際的聯(lián)配距離達(dá)到了5%的顯著水平,是不可能由機誤造成的。,Smith-Waterman算法,由于親緣關(guān)系較遠(yuǎn)的蛋白質(zhì)序列可能只有一些相互獨立的相同片段,所以進(jìn)行局部相似性分析有時可能比整體相似性分析更合理。 Smith和Waterman描述了一種查找具有最高相似性片段的算法。對于序列A=(a1,a2,…,am)和 B=(b1,b2,…,bn),Hij被定義為以a
40、i和bj 堿基對結(jié)束的片段(亞序列)的相似性值。 與Needle-Wunsch算法一樣,Smith-Waterman算法也要利用遞推關(guān)系來確定,相似性計算中包括2個統(tǒng)計量:堿基對(序列因子) 的相似性值和空位權(quán)重 (k 為空位長度)?!mith-Waterman算法可以給出2條序列的最大相似性值。,Smith-Waterman算法,相似性分?jǐn)?shù)矩陣,在對蛋白質(zhì)數(shù)據(jù)庫搜索時,可采用不同的相似性分?jǐn)?shù)矩陣,以提高搜索的靈敏度和準(zhǔn)確率。
41、常用的相似性矩陣有突變數(shù)據(jù)矩陣(Mutation Data Matrix,簡稱MD)和模塊替換矩陣(BLOcks Substitution Matrix,簡稱BLOSUM)。,在序列比對中,通常希望使用能夠反映一個氨基酸發(fā)生改變的概率與兩個氨基酸隨機出現(xiàn)的概率的比值的矩陣。這些比值可以用相關(guān)幾率(relatedness odds)矩陣表示。這就是突變數(shù)據(jù)相似性分?jǐn)?shù)矩陣產(chǎn)生的基礎(chǔ),在序列比對過程中,兩個序列從頭到尾逐個殘基進(jìn)行比對,所得幾
42、率值的乘積就是整個比對的分值。 在實際使用時,通常取幾率值的對數(shù)以簡化運算。因此,常用的突變數(shù)據(jù)矩陣PAM250實際上是幾率值的對數(shù)矩陣(圖3)。矩陣中值大于0的元素所對應(yīng)的兩個殘基之間發(fā)生突變的可能性較大,值小于0的元素所對應(yīng)的兩個殘基之間發(fā)生突變的可能性較小,圖3 突變數(shù)據(jù)相似性分?jǐn)?shù)矩陣PAM250,突變數(shù)據(jù)矩陣PAM即可接受點突變(Point Accepted Mutation,簡稱 PAM)。1個PAM的進(jìn)化距離表示10
43、0個殘基中發(fā)生一個殘基突變的概率。對應(yīng)于一個更大進(jìn)化距離間隔的突變概率矩陣,可以通過對初始矩陣進(jìn)行適當(dāng)?shù)臄?shù)學(xué)處理得到[Dayhoff等,1978],如常用的PAM250矩陣,PAM250相似性分?jǐn)?shù)矩陣相當(dāng)于在兩個序列之間具有20%的殘基匹配(圖3)。,主對角線上分?jǐn)?shù)值是指兩個相同殘基之間的相似性分?jǐn)?shù)值,有些殘基的分值較高,如色氨酸W為17、半胱氨酸C為12,說明它們比較保守,不易突變;有的殘基的分值較低,如絲氨酸S、丙氨酸A、門冬酰氨N
44、三種氨基酸均為2,這些氨基酸則比較容易突變。不同氨基酸之間的分?jǐn)?shù)值越高,它們之間的相似性越高,進(jìn)化過程中容易發(fā)生互相突變,如苯丙氨酸F和酪氨酸Y,它們之間的相似性分?jǐn)?shù)值是7。而相似性分?jǐn)?shù)值為負(fù)數(shù)的氨基酸之間的相似性則較低,如甘氨酸和色氨酸之間為-7,它們在進(jìn)化過程中不易發(fā)生互相突變。此外,表中把理化性質(zhì)相似的氨基酸按組排列在一起,如堿性氨基酸組氨酸H、精氨酸R和賴氨酸K。,突變數(shù)據(jù)矩陣的產(chǎn)生基于相似性較高(通常為85%以上)的序列比對,
45、那些進(jìn)化距離較遠(yuǎn)的矩陣(如PAM250)是從初始模型中推算出來而不是直接計算得到的,其準(zhǔn)確率受到一定限制。而序列分析的關(guān)鍵是檢測進(jìn)化距離較遠(yuǎn)的序列之間是否具有同源性,因此突變數(shù)據(jù)矩陣在實際使用時存在著一定的局限性。,而模塊替換矩陣BLOSUM則以序列片段為基礎(chǔ),它是基于蛋白質(zhì)模塊數(shù)據(jù)庫BLOCKS,Henikoff夫婦(Henikoff和Henikoff,1992)從蛋白質(zhì)模塊數(shù)據(jù)庫BLOCKS中找出一組替換矩陣,用于解決序列的遠(yuǎn)距離相
46、關(guān)。在構(gòu)建矩陣過程中,通過設(shè)置最小相同殘基數(shù)百分比將序列片段整合在一起,以避免由于同一個殘基對被重復(fù)計數(shù)而引入的任何潛在的偏差。在每一片段中,計算出每個殘基位置的平均貢獻(xiàn),使得整個片段可以有效地被看作為單一序列。,通過設(shè)置不同的百分比,產(chǎn)生了不同矩陣。由此,例如高于或等于80%相同的序列組成的串可用于產(chǎn)生BLOSUM80矩陣(BlOcks SUbstitution Matrix 發(fā)音為blossom);那些有62%或以上相同的串用于產(chǎn)生
47、BLOSUM62矩陣,依此類推。 BLOSUM與BLOCKS對于同樣的序列比對產(chǎn)生的結(jié)果在局部有所不同,可能是一個認(rèn)為不相似不可以替換而另一個認(rèn)為相似可以替換。必須說明,如果比對這兩個序列高度相似,這些細(xì)微的差別對整個序列比對結(jié)果的影響不大,但在序列比對的邊界區(qū)可能產(chǎn)生顯著影響,此時增強微弱信號以探測遠(yuǎn)距離相關(guān)變得十分重要。,數(shù)據(jù)庫的搜索簡介,數(shù)據(jù)庫查詢?yōu)樯飳W(xué)研究提供了一個重要工具,在實際工作中經(jīng)常使用。然而,在分子生物學(xué)研究中
48、,對于新測定的堿基序列或由此翻譯得到的氨基酸序列,往往需要通過數(shù)據(jù)庫搜索,找出具有一定相似性的同源序列,以推測該未知序列可能屬于哪個基因家族,具有哪些生物學(xué)功能。對于氨基酸序列來說,有可能找到已知三維結(jié)構(gòu)的同源蛋白質(zhì)而推測其可能的空間結(jié)構(gòu)。因此,數(shù)據(jù)庫搜索與數(shù)據(jù)庫查詢一樣,是生物信息學(xué)研究中的一個重要工具。,數(shù)據(jù)庫搜索的基礎(chǔ)是序列的相似性比對,即雙序列比對(pairwise alignment)。 新測定的、希望通過數(shù)據(jù)庫搜索確
49、定其性質(zhì)或功能的序列稱作檢測序列(probe sequence);通過數(shù)據(jù)庫搜索得到的和檢測序列具有一定相似性的序列稱目標(biāo)序列(subject sequence)。 為了確定檢測序列和一個已知基因家族之間的進(jìn)化關(guān)系,在通過數(shù)據(jù)庫搜索得到某些相似序列后,還需要判斷其序列相似性程度。如果檢測序列和目標(biāo)序列的相似性程度很低,還必須通過其它方法或?qū)嶒炇侄尾拍艽_定其是否屬于同一基因家族,比對統(tǒng)計學(xué)意義的評價--E值(E-Value),P值
50、(P-Value)(概率值),BLAST程序中使用了E值而非P值,這主要是從直觀和便于理解的角度考慮。比如E值等于5和10,總比P值等于0.993和0.99995更直觀。但是當(dāng)E<0.01時,P值與E值接近相同,參數(shù)K和λ可分別被簡單地視為搜索步長(search spacesize)和計分系統(tǒng)(scoring system)的特征數(shù),BLAST和FASTA數(shù)據(jù)庫搜索策略,一種思路是把數(shù)據(jù)庫中的所有蛋白序列與待查序列的關(guān)系都視為相同
51、重要,也就是說對于E值均較低的短和長序列,它們是等同重要的。FASTA程序近期版本便是采用這一策略 另一種思路是把長序列視為比短序列更重要,因為長序列往往包括更多的特異功能域(domain)。如果對序列長度上進(jìn)行相關(guān)優(yōu)先處理,則在計算數(shù)據(jù)庫序列長度為n的E值時,將乘以N/n,其中N為數(shù)據(jù)庫中序列的總長度。E值的計算可簡單地把整個數(shù)據(jù)庫序列視為長度為N的單條序列。BLAST程序采用了這一策略 FASTA策略中E值的計算還需再乘上
52、數(shù)據(jù)庫的序列條數(shù)。如果考慮到核酸數(shù)據(jù)庫的序列長度變化更大,則在DNA序列相似性搜索時,BLAST的策略可能會是合理的選擇,BLAST僅通過部分而不是全部無關(guān)序列計算最適聯(lián)配值,這贏得了搜索速度。因此,對于某一選定的替換矩陣和空位罰值,必須進(jìn)行K和λ參數(shù)的預(yù)先估計,估計中使用真實序列,而非通過隨機序列模型產(chǎn)生的模擬序列。這一估計的結(jié)果看來非常準(zhǔn)確。,一些數(shù)據(jù)庫搜索程序,例如FASTA或其它基于Smith-Waterman算法的程序,在進(jìn)行
53、序列搜索時,會對數(shù)據(jù)庫中的每條序列進(jìn)行聯(lián)配并給出聯(lián)配值,這些值大部分與未知序列無關(guān),但它們被用于了K和λ參數(shù)的估計。這一方法避免了隨機序列模型因使用真實序列(real sequence)造成的隨意性,但同時產(chǎn)生了使用相關(guān)序列估計參數(shù)的難題,表6 數(shù)據(jù)庫相似性搜索程序BLAST和FASTA程序清單,注:n:核酸序列或核酸序列庫;p:蛋白質(zhì)序列或蛋白質(zhì)序列庫,搜索實例,FastA和BLAST程序是目前最常用的基于局部相似性的數(shù)據(jù)庫搜索程序
54、,它們都基于查找完全匹配的短小序列片段,并將它們延伸得到較長的相似性匹配。它們的優(yōu)勢在于可以在普通的計算機系統(tǒng)上運行,而不必依賴計算機硬件系統(tǒng)而解決運行速度問題。,BLAST是目前常用的數(shù)據(jù)庫搜索程序,它是Basic Local Alignment Search Tool的縮寫,意為“基本局部相似性比對搜索工具”[Altschul, 1990, 1997]。國際著名生物信息中心都提供基于Web的BLAST服務(wù)器。BLAST程序之所以使用
55、廣泛,主要因為其運行速度比FastA等其它數(shù)據(jù)庫搜索程序快,而改進(jìn)后的BLAST程序允許空位的插入??梢栽L問NCBI的網(wǎng)站在線進(jìn)行BLAST和FastA的搜索,BLAST搜索,BLAST算法本身很簡單,它的基本要點是序列片段對(segment pair)的概念。所謂序列片段對是指兩個給定序列中的一對子序列,它們的長度相等,且可以形成無空位的完全匹配。 BLAST算法首先找出代查序列和目標(biāo)序列間所有匹配程度超過一定閾值的序列片
56、段對,然后對具有一定長度的片段對根據(jù)給定的相似性閾值延伸,得到一定長度的相似性片段,稱高分值片段對(high-scoring pairs, HSPs)。這就是無空位的BLAST比對算法的基礎(chǔ),也是BLAST輸出結(jié)果的特征。,BLAST軟件包實際上是綜合在一起的一組程序,不僅可用于直接對蛋白質(zhì)序列數(shù)據(jù)庫和核酸序列數(shù)據(jù)庫進(jìn)行搜索,而且可以將檢測序列翻譯成蛋白質(zhì)或?qū)?shù)據(jù)庫翻譯成蛋白質(zhì)后再進(jìn)行搜索,以提高搜索結(jié)果的靈敏度(表7)。,表7 BLA
57、ST程序檢測序列和數(shù)據(jù)庫類型,BLAST程序是免費軟件,可以從美國國家生物技術(shù)信息中心NCBI等文件下載服務(wù)器上獲得,安裝在本地計算機上,包括UNIX系統(tǒng)和WINDOWS系統(tǒng)的各種版本。但必須有BLAST格式的數(shù)據(jù)庫,可以從NCBI下載,也可以利用該系統(tǒng)提供的格式轉(zhuǎn)換工具由其它格式的核酸或蛋白質(zhì)序列數(shù)據(jù)庫經(jīng)轉(zhuǎn)換后得到。對核酸序列數(shù)據(jù)庫而言,不論用哪種方式,都需要很大的磁盤空間;而程序運行時,需要有較大的內(nèi)存和較快的運算速度,因此必須使用
58、高性能的服務(wù)器。,對一般用戶來說,目前常用的辦法是通過NCBI、EBI等國際著名生物信息中心的BLAST服務(wù)器進(jìn)行搜索。北京大學(xué)生物信息中心也提供了BLAST數(shù)據(jù)庫搜索服務(wù)。需要說明的是,各生物信息中心BLAST用戶界面有所不同,所提供的數(shù)據(jù)庫也可能不完全相同,使用前最好先進(jìn)行適當(dāng)?shù)倪x擇,歐洲生物信息研究所BLAST服務(wù)器的用戶界面(圖4)比較簡潔,提供的數(shù)據(jù)庫和參數(shù)很多,用戶可以根據(jù)不同要求,選擇不同的數(shù)據(jù)庫和各種參數(shù)。一般情況下,可
59、以先按照系統(tǒng)給定的缺省參數(shù)進(jìn)行初步搜索,對結(jié)果進(jìn)行分析后再適當(dāng)調(diào)整參數(shù),如改變相似性矩陣、增加或減少空位罰分值、調(diào)節(jié)檢測序列滑動窗口大小等。對于核酸序列數(shù)據(jù)庫,一般選擇重復(fù)序列屏蔽功能,而對于蛋白質(zhì)序列,特別是球蛋白,通常不必選擇重復(fù)序列屏蔽功能。,圖4 歐洲生物信息學(xué)研究所的BLAST服務(wù)器的用戶界面,圖5是BLAST程序運行結(jié)果實例。這里,檢測序列是與細(xì)胞凋亡有關(guān)的人自噬基因氨基酸序列,通過歐洲生物信息學(xué)研究所的BLAST服務(wù)器對包
60、括SwissProt和TrEMBL數(shù)據(jù)庫在內(nèi)的蛋白質(zhì)數(shù)據(jù)庫進(jìn)行搜索。輸出結(jié)果中包括程序名稱、版本號以及文獻(xiàn)引用出處,以及檢索序列的名稱、數(shù)據(jù)庫名稱;列出相似性值較高的序列條目,以及它們在數(shù)據(jù)庫中的編號和簡要說明。每個條目后面給出相似性分?jǐn)?shù)值Score和期望頻率值E,以相似性分?jǐn)?shù)值大小為序排列,分?jǐn)?shù)越高,相似性越大。而E值則表示隨機匹配的可能性,E值越大,隨機匹配的可能性也越大。最后給出檢測序列和目標(biāo)序列的比對結(jié)果(限于篇幅,圖中只給出檢
61、測序列和一個目標(biāo)序列的比對結(jié)果)。,圖5 BLAST程序運行結(jié)果實例,最初的BLAST程序只能用于無空位的比對。經(jīng)驗表明比對結(jié)果通常會出現(xiàn)一些無空位但不連續(xù)的區(qū)域,不難想象,有些高分值片段對可以通過一些相似性較低且有空位的片段連接起來,組成了一些更長的或許更具實際生物學(xué)意義的比對。基于上述思路,BLAST算法經(jīng)過改進(jìn)允許空位插入(Altshul等,1997)。為縮短對數(shù)據(jù)庫初始搜索的時間,新的算法只找出一個最好的高分值片段,并以此為基
62、礎(chǔ)運用動態(tài)規(guī)劃方法將這一片段向兩端延伸,最終產(chǎn)生的比對結(jié)果可能有空位插入。由于免去了查找所有高分值片段對的步驟,新的算法比原算法快3倍。對BLAST算法的進(jìn)一步擴充,可以考慮雙序列比對和多序列比對的有效結(jié)合,允許空位的 BLAST,位點特異性BLAST疊代搜索,位點特異性BLAST(Position-Specific Iterated BLAST,簡稱PSI-BLAST)疊代搜索(Altschul等,1997),是一種將雙序列比對和多序
63、列比對結(jié)合在一起的數(shù)據(jù)庫搜索方法。,位置特異性疊代BLAST (Position-Specific Iterated BLAST,簡稱PSI-BLAST)則是對蛋白質(zhì)序列數(shù)據(jù)庫進(jìn)行搜索的改進(jìn),其主要思想是通過多次疊代找出最佳結(jié)果。 具體做法是利用第一次搜索結(jié)果構(gòu)建位置特異性分?jǐn)?shù)矩陣,并用于第二次的搜索,第二次搜索結(jié)果用于第三次搜索,依此類推,直到找出最佳搜索結(jié)果。此外,BLAST不僅可用于檢測序列對數(shù)據(jù)庫的搜索,還可用于兩個序列
64、之間的比對。,盡管以下事實已經(jīng)基本得到認(rèn)同:基于序列模式的數(shù)據(jù)庫搜索靈敏度較高、特異性較好,因而可以發(fā)現(xiàn)一些距離較遠(yuǎn)但卻具有生物學(xué)意義的相似序列;它的不足之處也不能予以忽視。除了需要大量的計算資源這一缺點外,對于搜索結(jié)果的分析解釋常常相當(dāng)困難。這些制約因素限制了它的實際使用范圍。 PSI-BLAST的基本思路在于根據(jù)最初的搜索結(jié)果,依照預(yù)先定義的相似性閾值將序列分成不同的組,構(gòu)建一個位點特異性的序列譜,并通過多次疊代不斷改進(jìn)這一序
65、列譜以提高搜索的靈敏度。,和其它疊代算法一樣,PSI-BLAS方法既有不少長處,也有它的弊病。例如,如果在比對前不把膠原蛋白、同源多聚體等低復(fù)雜度的重復(fù)序列屏蔽掉,自動疊代搜索過程會因為這些重復(fù)序列的干擾而失?。℉olm,1998)。假如第一輪的搜索結(jié)果出現(xiàn)一個錯誤序列,那么最終搜索結(jié)果中將會出現(xiàn)許多不期望的無關(guān)序列。因此,為了盡量去除大量的錯誤匹配,仔細(xì)分析搜索結(jié)果給出的同源關(guān)系變得非常重要。,BLAST算法,算法:做任何事情都有一定
66、的步驟。為解決一個問題而采取的方法和步驟,就稱為算法。BLAST算法:快速高效的保證。 將查詢序列分為多個短片段及相似片段; 篩選數(shù)據(jù)庫以發(fā)現(xiàn)具備以上片段的序列; 將匹配序列進(jìn)行延伸,插入和延伸gap,根據(jù)突變矩陣(BLOSUM62)計分排序; 返回分值最高的匹配序列,NCBI,BLAST結(jié)果的評價,比對好壞的評價:Bit分值 考慮了比對中相同和相似基團(tuán)、gap、替代矩陣,并經(jīng)過標(biāo)化; Bit分值越
67、高,比對越好比對統(tǒng)計學(xué)意義的評價:E值(E-value) E值越低,則比對就更有可能具有顯著性其他:比對的長度也是一個關(guān)鍵因素,解讀BLAST的結(jié)果,header。給出查詢序列的信息和查詢的數(shù)據(jù)庫名稱。每一條匹配序列的描述。包括圖形化方式和在線的文字描述。每個匹配序列與查詢序列的比對情況。,BLAST程序的選擇,蛋白:BLASTP-tBLASTN核酸:blastn-blastx-tblastx數(shù)據(jù)庫的選擇:nr最為常用
68、;month跟蹤每個月新增數(shù)據(jù);swissprot蛋白庫注釋詳盡,比對結(jié)果是否有意義的判定,統(tǒng)計學(xué)顯著性一致性:蛋白序列>25%,核酸序列>70%(參考)長度,FastA搜索,FastA算法是由Lipman和Pearson于1985年發(fā)表的(Lipman和Pearson,1985)。FastA的基本思路是識別與代查序列相匹配的很短的序列片段,稱為k-tuple。,蛋白質(zhì)序列數(shù)據(jù)庫搜索時,短片段的長度一般是1-2個殘基長;
69、DNA序列數(shù)據(jù)庫搜索時,通常采用稍大點的值,最多為6個堿基。通過比較兩個序列中的短片段及其相對位置,可以構(gòu)成一個動態(tài)規(guī)劃矩陣的對角線方向上的一些匹配片段。 FastA程序采用漸進(jìn)(heuristic approach)算法將位于同一對角線上相互接近的短片段連接起來。也就是說,通過不匹配的殘基將這些匹配殘基片段連接起來,以便得到較長的相似性片段。這就意味著,F(xiàn)astA輸出結(jié)果中允許出現(xiàn)不匹配殘基。這和BLAST程序中的成對片段類似
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 如何進(jìn)行崗位分析
- 如何進(jìn)行試卷分析
- 如何進(jìn)行財務(wù)分析
- 如何進(jìn)行考試分析
- 如何進(jìn)行考試分析
- 如何進(jìn)行財務(wù)分析
- 如何進(jìn)行并購財務(wù)分析
- 如何進(jìn)行培訓(xùn)需求分析
- 如何進(jìn)行財務(wù)報表分析
- 如何進(jìn)行財務(wù)報表分析
- 如何進(jìn)行試卷質(zhì)量分析
- 如何進(jìn)行swot分析(帶案例)
- 如何進(jìn)行 精準(zhǔn)數(shù)據(jù)分析
- 如何進(jìn)行產(chǎn)業(yè)鏈分析
- 如何進(jìn)行胎教
- 如何進(jìn)行理念識別
- 如何進(jìn)行劃線提問
- 如何進(jìn)行績效面談
- 如何進(jìn)行寫字教學(xué)
- 女性如何進(jìn)行保健
評論
0/150
提交評論