序列比較_第1頁
已閱讀1頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、7、比對的統(tǒng)計(jì)學(xué)顯著性、比對的統(tǒng)計(jì)學(xué)顯著性對于任何序列比對,我們可以計(jì)算其相似性得分,但重要的是需要判定這個(gè)分值是否足夠高,是否具有顯著意義(KarlinAltschul,1990;AlexrovSolovyev,1998),是否能夠提供進(jìn)化同源性的證據(jù)。由于隨機(jī)因素的影響,非同源的序列也可能具有較高的相似性得分。不幸的是,沒有一種數(shù)學(xué)理論方法描述全局序列比對的期望得分的分布,無法直接分析統(tǒng)計(jì)顯著性,需進(jìn)行間接分析。下面介紹幾種顯著性檢

2、驗(yàn)的方法(王槐春,1994)。序列相似的顯著性檢驗(yàn)的典型方法是將兩條待比較的序列分別隨機(jī)打亂,再使用相同的程序與打分函數(shù)(或打分矩陣)進(jìn)行比對,計(jì)算這些隨機(jī)序列的相似性得分。重復(fù)這一過程(通常為50?100次),得到隨機(jī)序列比對得分的正態(tài)分布曲線,用?和?分別表示其平均值與標(biāo)準(zhǔn)差。設(shè)原來兩條序列的比對得分為x,利用下式計(jì)算大于或等于x的比對得分概率:z=(x?)?(332)z值的單位為SD。根據(jù)正態(tài)分布,當(dāng)z值為3.1、4.3和5.2時(shí)

3、,相似性得分為x的隨機(jī)出現(xiàn)概率分別為103、105和107??梢愿鶕?jù)z值判斷兩個(gè)序列相似得分的顯著性。一般假定當(dāng)z值大于5時(shí),兩條被比較的序列在進(jìn)化上是相關(guān)的;當(dāng)z值在3?5之間時(shí),如果兩者有其他方面相似的證據(jù)(如功能相似),則兩條序列也是同源的;如果z值小于3,則表示兩條序列不同源。許多序列比較軟件都帶有計(jì)算z值的程序,可直接用于評價(jià)序列比對的顯著性。判斷兩條序列比對顯著性的另一個(gè)常用方法是分析其中的一條序列(稱為靶序列)對數(shù)據(jù)庫檢索

4、的相似性得分的分布情況,即所檢測出的其他類似序列的個(gè)數(shù)與得分大小,并根據(jù)結(jié)構(gòu)域或功能的有無設(shè)立陽性對照和陰性對照。如果靶序列所檢出序列的分布狀態(tài)與陽性對照序列的檢測結(jié)果相近,而陰性對照序列不能或僅檢出很少有關(guān)的序列,則可以斷定要比較的那兩條序列的比對結(jié)果是有統(tǒng)計(jì)意義的。這種方法稱為相似性得分分布分析方法,常用于數(shù)據(jù)庫相似性檢索的顯著性評價(jià),可以確定一些微弱的序列相似性的顯著性。karlin和Altschul(KarlinAltschul

5、1990)提出一種基于概率論的顯著性分析方法,他們推導(dǎo)出一個(gè)精確的公式,計(jì)算兩條序列比對得分大于兩條隨機(jī)序列比對得分的概率。根據(jù)這一公式,比對得分是將第一條序列的任意一個(gè)片段與第二條序列的任意一個(gè)片段進(jìn)行比對的最高得分(比較過程中不引入空位),稱為最大片段得分,比對的片段稱為高得分片段對(HSP)。HSP通常用改進(jìn)得Smithwaterman算法或簡單地使用大的空位罰分方法獲得。KarlinAltschul的計(jì)算公式如下:P(Sx)=1

6、exp(Ke?x)(333)其中P(Sx)是最大片段得分大于x的概率,K和?是兩個(gè)參數(shù),它們的值取決于打分函數(shù)和序列中各種字符出現(xiàn)的頻率。該方法只限于不引入空位的序列比較得分的顯著性計(jì)算。把一個(gè)已知得比對分值S同預(yù)期的分布相關(guān)聯(lián)可以計(jì)算出P值,從而給出這個(gè)分值的比對顯著性。通常,P值越趨近于零,分值越有意義。把比對局限于沒有空位的基礎(chǔ)之上,使問題大大簡化,但是卻脫離分子生物學(xué)的實(shí)際情況。要建立一個(gè)插入和缺失的精確模型需要引入空位,但如果

7、空位相對較少,在這些空位之間仍然可以獲得高分值區(qū)域,有代表性的是可能會(huì)獲得緊密相鄰的HSP。在這種情況下,從總體上去評估它的顯著性是較為合理的,也許,每個(gè)片段并不顯得很重要,但是幾個(gè)片段同時(shí)出現(xiàn)就不太像是偶然事件了。KarlinAltschul加和統(tǒng)計(jì)學(xué)可以計(jì)算N個(gè)HSP的統(tǒng)計(jì)值,這個(gè)方法的實(shí)質(zhì)是把N個(gè)最佳片段的分值進(jìn)行加總,從而計(jì)算事件偶然發(fā)生的可能性,其它一些論據(jù)也被用來確認(rèn)這些分值只是在片段與比對一致的情況下進(jìn)行加總。雖然加總的分

8、值分布與HSP分值最大值有差異,仍然可以得到解析解。上述幾種方法需要經(jīng)過計(jì)算才能進(jìn)行顯著性的判斷,有經(jīng)驗(yàn)的專家往往能夠直接進(jìn)行顯著性判斷。Doolitter(Doolittle1987)提出如下的經(jīng)驗(yàn)法則:①如果兩個(gè)序列的長度都大于100,在適當(dāng)?shù)丶尤肟瘴恢?,它們配對的相同率達(dá)到25%以上,字母表中的字符組成,k大于2,通過插入操作,使得各序列s1s2...sk的長度一樣,從而形成這些序列的多重比對。如果將各序列在垂直方向排列起來,則

9、可以根據(jù)每一列觀察各序列中字符的對應(yīng)關(guān)系,如圖313。通過序列的多重比對,可以得到一個(gè)序列家族的序列特征。當(dāng)給定一個(gè)新序列時(shí),根據(jù)序列特征,判斷這個(gè)序列是否屬于該家族。對于多序列比對,現(xiàn)有的大多數(shù)算法都基于漸進(jìn)的比對的思想,在序列兩兩比對的基礎(chǔ)上逐步優(yōu)化多序列比對的結(jié)果。進(jìn)行多序列比對后可以對比對結(jié)果進(jìn)行進(jìn)一步處理,例如構(gòu)建序列模式的profile,將序列聚類構(gòu)建分子進(jìn)化樹等等。1、SP(SumofPairs)模型)模型在多重比對中,首

10、先要對所得到的比對進(jìn)行評價(jià),以確定其優(yōu)劣。例如,對圖313中的8個(gè)序列進(jìn)行比對,可以得到另外兩種結(jié)果,如圖3.14所示。那么,這樣的三個(gè)多重比對,哪一個(gè)更好呢?這就需要有一種方法來評價(jià)一個(gè)多重比對。評價(jià)一個(gè)多重序列比對比評價(jià)序列兩兩比對結(jié)果更復(fù)雜。這里,我們假設(shè)得分(代價(jià))函數(shù)具有加和性,即多重比對的得分是各列得分總和。因此,我們首先考慮如何給比對的每一列打分,然后將各列的和加起來,成為一個(gè)總得分。在處理每一列時(shí),自然的處理方式是尋找一

11、個(gè)具有k個(gè)變量的打分函數(shù)(k是參與多重比對的序列的個(gè)數(shù)),而每一個(gè)變量或者是一個(gè)來自特定字母表中的字符,或者是一個(gè)空白。我們很難得到這樣一種具有k個(gè)變量的表達(dá)式函數(shù)。另一方面,這種隱式函數(shù)不具有統(tǒng)一的形式,隨著k的變化,函數(shù)的表現(xiàn)形式也發(fā)生變化,不利于計(jì)算機(jī)處理。可以考慮使用顯式函數(shù),在實(shí)現(xiàn)時(shí),用一個(gè)k維數(shù)組來表示該顯式函數(shù)(類似于打分矩陣),指定對應(yīng)于k個(gè)變量各種組合的函數(shù)值。這帶來一個(gè)問題,即所需的數(shù)組空間很大,而且隨著k的變化,數(shù)

12、據(jù)結(jié)構(gòu)也要隨之動(dòng)態(tài)變化。我們所期望的函數(shù)在形式上應(yīng)該簡單,具有統(tǒng)一的形式,不隨序列的個(gè)數(shù)而發(fā)生形式變化。根據(jù)得分函數(shù)的意義,函數(shù)值應(yīng)獨(dú)立于各參數(shù)的順序,即與待比較的序列先后次序無關(guān)。另外,對相同的VTISCTGSSSNIGAGNHVKWYQQLPGVTISCTGSSSNIGAG?NHVKWYQQLPGVTISCTGTSSNIGSITVNWYQQLPGVTISCTGTSSNIGS??ITVNWYQQLPGLRLSCSSSGFIFSSYAM

13、YWVRQAPGLRLSCSSSGFIFSS?YAMYWVRQAPGLSLTCTVSGTSFDDYYSTWVRQPPGLSLTCTVSGTSFDD??YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDGPEVTCVVVDVSHEDPQVKFNWYVDG??ATLVCLISDFYPGAVTVAWKADSATLVCLISDFYPGA??VTVAWKADS??AALGCLVKDYFPEPVTVSWNSGAALGCLVKDY

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論