核苷酸配對(duì)差異分析與中性檢驗(yàn)

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-01-05 格式：ppt 頁數(shù)：42 大?。?99.50KB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁，還剩41頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第十章古DNA數(shù)據(jù)分析,主要內(nèi)容,系統(tǒng)發(fā)育分析遺傳多維尺度分析主成分分析群體遺傳學(xué)分析,系統(tǒng)發(fā)育分析,系統(tǒng)發(fā)育(phylogeny)是指一群有機(jī)體發(fā)生或進(jìn)化的歷史。系統(tǒng)發(fā)育樹(phylogenetic tree），也稱為譜系發(fā)育樹、譜系樹、系統(tǒng)發(fā)生樹、系統(tǒng)樹)就是描述這一群有機(jī)體發(fā)生或進(jìn)化順序的拓?fù)浣Y(jié)構(gòu) 。系統(tǒng)發(fā)育分析(phylogenetic analysis)就是指利用現(xiàn)有生物的形態(tài)或分子生物學(xué)數(shù)據(jù)重建(recon

2、struction)系統(tǒng)發(fā)育樹推斷系統(tǒng)發(fā)生的過程。,系統(tǒng)發(fā)育樹,系統(tǒng)發(fā)育樹形式,有根樹（rooted tree）和無根樹（unrooted tree）,當(dāng)n=10時(shí)，有根樹的數(shù)目是34 459 425、無根樹是2 027 025。,系統(tǒng)發(fā)育樹形式,標(biāo)度樹和非標(biāo)度樹,系統(tǒng)發(fā)育樹形式,基因樹和物種樹,圖（a）基因的分歧時(shí)間早于物種的分歧時(shí)間（b）基因的分歧時(shí)間晚于物種的分歧時(shí)間,基因樹與物種樹之間的不同,系統(tǒng)發(fā)生樹的構(gòu)建,（1）序列比對(duì)與

3、排序；（2）系統(tǒng)發(fā)育樹的重建；（3）結(jié)果的檢驗(yàn)。,序列比對(duì)與排序,序列比對(duì)與排序是構(gòu)建系統(tǒng)發(fā)育樹、進(jìn)行系統(tǒng)發(fā)育分析的前提和必要條件。在古DNA研究中，序列比對(duì)的目的就是建立起所檢測序列與其他序列的同源關(guān)系，提取系統(tǒng)發(fā)育分析數(shù)據(jù)集。序列比對(duì)有各種不同的方法，這些方法都是將同源序列位點(diǎn)上相同或相似殘基（稱匹配位點(diǎn)）與不相似殘基（稱不匹配位點(diǎn)）按一定的記分規(guī)則轉(zhuǎn)化成序列之間相似性或差異性（距離）數(shù)值進(jìn)行比較。 ClustalX (Cl

4、ustalW) 是進(jìn)行此項(xiàng)工作的經(jīng)典程序。,系統(tǒng)發(fā)育樹的重建,在古DNA研究中,主要的系統(tǒng)發(fā)育樹重建方法有3類：距離法簡約法似然法,,距離法,距離法(distance method)首先根據(jù)距離模型估算出分類群間的進(jìn)化距離，然后根據(jù)不同的聚類算法,從進(jìn)化距離最短的開始依次聚類,利用距離值矩陣計(jì)算出最優(yōu)樹,或?qū)⒖偟臉渲﹂L度最小化而優(yōu)化出進(jìn)化樹。計(jì)算個(gè)體間遺傳距離的替代模

5、型有很多，最基本的核苷酸序列替代模型是P-距離模型、Jukes—Cantor單參數(shù)模型（JC69）、Kimura雙參數(shù)模型（K2P，也稱為K80），在此基礎(chǔ)上衍生出其它一系列模型，如Tajima-Nei模型、Tamura模型、Tamura-Nei模型等。,P-距離模式最簡單的距離模型，將2個(gè)序列間核苷酸差異率作為彼此間的遺傳距離，其計(jì)算公式為：式中nd和n分別為所檢測的兩序列間的核苷酸差異數(shù)和配對(duì)總數(shù)。,P距離,,Jukes

6、-cantor距離模型,Jukes-cantor模型假定任一位點(diǎn)的4種核苷酸A、T、G和C間的替代頻率都是相同的，其遺傳距離為：,,式中P為兩個(gè)序列間核苷酸的差異率。,Kimura雙參數(shù)距離模型,事實(shí)上，在DNA 序列中4種核苷酸的替代頻率是不同的，通常核苷酸轉(zhuǎn)換的比率要高于顛換，Kimura雙參數(shù)模型考慮了轉(zhuǎn)換和顛換速率的不同，其遺傳距離為：,,式中P 和Q 分別為序列中核苷酸轉(zhuǎn)換和顛換的比率,群體之間的遺傳距離,對(duì)于群體之間的遺傳距

7、離，常用以下公式計(jì)算：其中 dij 是指種群i和j間的平均配對(duì)差異(raw mean nucleotide pairwise difference),而d i和 dj則分別為種群i和j內(nèi)的平均配對(duì)差異。,,距離模型的選擇,當(dāng)序列分歧比較大時(shí)，不同距離測度獲的結(jié)果差異比較大；但序列分歧比較小時(shí)，各種模型所得的數(shù)據(jù)十分相近。目前古DNA研究的對(duì)象多為10萬年內(nèi)的人、動(dòng)植物等，其序列分歧度都不是很大，因此無論選擇哪種距離模型，對(duì)

8、實(shí)驗(yàn)的分析結(jié)果影響都比較小。在古DNA研究中一般選用Kimura雙參數(shù)距離模型，在實(shí)際應(yīng)用中，此遺傳距離模型和其它模型相差不大。,距離法常用的聚類算法,算術(shù)平均不加權(quán)的組對(duì)法(unweighted pair group method with arithmatic mean, UPGMA)、FM法（Fitch-Margoliash）、最小進(jìn)化法(minimum evolution, ME)鄰接法(neighbor-joining

9、, NJ),NJ法,NJ法在系統(tǒng)發(fā)育樹構(gòu)建中應(yīng)用最為廣泛，其原理是逐步尋找新的近鄰種類(序列),使最終生成的分子樹的遺傳距離總長度為最小。所謂“近鄰”是指在譜系樹上兩個(gè)分類單元只通過一個(gè)內(nèi)部節(jié)點(diǎn)相連。對(duì)于古DNA研究來說，通常選用NJ法構(gòu)樹。,簡約法,簡約法(parsimony methods)中最有影響的是最大簡約法(Maximum Parsimony, MP)，該方法源于形態(tài)性狀的研究，運(yùn)用最相近的生物間性狀變化量最少的演化原理確

10、定最短的進(jìn)化樹，該樹僅需要最少的進(jìn)化步驟就能解釋所有DNA序列之間的變異。構(gòu)建最簡約譜系樹的位點(diǎn)被稱為簡約信息點(diǎn)（informative site）當(dāng)無論有多少條序列進(jìn)行比對(duì)后，如果一個(gè)位點(diǎn)是信息位點(diǎn)，那么在這個(gè)位點(diǎn)上它至少要包含兩種不同的核苷酸，而且每種核苷酸至少在兩個(gè)序列中出現(xiàn)。,最大簡約樹的構(gòu)建,最大簡約法應(yīng)用于序列數(shù)據(jù)構(gòu)建包括以下幾個(gè)步驟： ⑴ 確定所有的信息位點(diǎn)， ⑵ 對(duì)所有可能的樹型，計(jì)算每個(gè)信息位點(diǎn)上的

11、發(fā)生核苷酸替代的最低次數(shù)，并對(duì)所有信息位點(diǎn)的最低替代數(shù)目求和， ⑶ 選擇核苷酸替代次數(shù)總和最小的樹作為最簡約譜系樹。,一致樹consensus tree,在簡約法中會(huì)產(chǎn)生多顆等價(jià)的簡約樹是很常見的，大量近源序列組成的數(shù)據(jù)集有時(shí)會(huì)產(chǎn)生成百上千棵樹，無法得到準(zhǔn)確的系統(tǒng)發(fā)育信息。此時(shí)最好的辦法是將所有的譜系樹合成為一個(gè)譜系樹，即一致樹。一致樹可分為：嚴(yán)格一致樹（strict consensus tree）多數(shù)一致

12、樹（majority-rule consensus tree）,似然法,似然法(likelihood methods)中最常用的是最大似然法(Maximum Likelihood, ML)，這類方法首先要確定一個(gè)序列進(jìn)化模型，例如Kimura雙參數(shù)模型等。然后在該模型下尋找可能的系統(tǒng)樹，最后通過比較系統(tǒng)樹的似然函數(shù)值，將具有最大似然值的系統(tǒng)樹視為最佳的系統(tǒng)樹。實(shí)際上，似然值是從比對(duì)的每一個(gè)堿基位點(diǎn)衍生出來的。如果以核苷酸替代模型為基礎(chǔ)

13、，最大似然法需要確定每個(gè)分支在一定時(shí)間間隔內(nèi)核苷酸發(fā)生特定替代變化的概率。,中介網(wǎng)絡(luò)法(median network),mtDNA控制區(qū)序列系統(tǒng)發(fā)育信息位點(diǎn)少,受頻發(fā)突變影響而出現(xiàn)多系或網(wǎng)狀結(jié)構(gòu)，上述這些傳統(tǒng)構(gòu)樹方法往往最后只使用一棵分子系統(tǒng)樹, 很難反映單倍型序列間的真實(shí)系統(tǒng)發(fā)育關(guān)系。此外, 這些方法在構(gòu)建分子系統(tǒng)樹時(shí),不考慮單倍型的頻率及其地理來源的信息。 Bandelt等提出一種新的構(gòu)樹方法—中介網(wǎng)絡(luò)法，可以構(gòu)建中介網(wǎng)絡(luò)圖,該圖

14、包含所有最簡約的樹,而且可顯示序列的信息(如同質(zhì)性位點(diǎn)的位置、突變熱點(diǎn)以及分辨單倍型類群等)，在聚類簇中節(jié)點(diǎn)之間的距離越近，它們的單倍型就越相近。,不同構(gòu)樹方法的評(píng)估和比較,在研究實(shí)際問題的過程中，不同譜系構(gòu)樹方法獲得的結(jié)果不盡相同。目前還沒有一種構(gòu)樹方法可以適合于所有的數(shù)據(jù)和條件。在構(gòu)建系統(tǒng)發(fā)育樹時(shí)，最好同時(shí)使用多種方法構(gòu)建系統(tǒng)樹，多種方法所獲系統(tǒng)樹的一致，將大大提高結(jié)果的可靠性。當(dāng)然無論使用何種方法重建系統(tǒng)樹,都必須對(duì)其分支格局的

15、統(tǒng)計(jì)置信度進(jìn)行檢驗(yàn)。,系統(tǒng)發(fā)育樹的檢驗(yàn),當(dāng)一個(gè)系統(tǒng)樹建成后，確定其可靠性十分重要。因此在構(gòu)建系統(tǒng)發(fā)育樹之后，應(yīng)當(dāng)對(duì)所建立的系統(tǒng)樹的準(zhǔn)確度加以評(píng)估。一個(gè)系統(tǒng)樹一般會(huì)有兩類誤差：拓?fù)浣Y(jié)構(gòu)誤差和分支長度誤差。在檢驗(yàn)分子系統(tǒng)樹的精確性時(shí)一般首先檢驗(yàn)分支拓?fù)浣Y(jié)構(gòu)存在的誤差，而分枝長度估計(jì)的可靠性可以通過自展法來檢驗(yàn)。,自展法（bootstrap method）,自展法根據(jù)從原始數(shù)據(jù)集中隨機(jī)抽樣產(chǎn)生的自展數(shù)據(jù)集構(gòu)建多個(gè)系統(tǒng)發(fā)育樹，然后檢驗(yàn)這些譜

16、系樹對(duì)一致樹各個(gè)支系的支持率。自展法可以對(duì)距離構(gòu)樹方法、最大簡約建樹方法、最大似然構(gòu)樹方法以及衍生出的其它任何方法進(jìn)行評(píng)估。典型的自展檢驗(yàn)分析結(jié)果是一個(gè)數(shù)字，這個(gè)數(shù)字同一個(gè)系統(tǒng)發(fā)育進(jìn)化樹的一個(gè)特定分支相關(guān)，而這個(gè)系統(tǒng)發(fā)育進(jìn)化樹則給出了支持單源進(jìn)化分支的自展的重復(fù)比例。如果自展值大于70%，那么所得到的系統(tǒng)發(fā)育進(jìn)化樹能夠反映真實(shí)的系統(tǒng)發(fā)生史的可能性要大于95%。,遺傳多維尺度分析,對(duì)于親緣關(guān)系較近的群體，用構(gòu)建系統(tǒng)發(fā)育樹的方法分析其

17、遺傳關(guān)系有一定的局限性。當(dāng)親緣關(guān)系很近時(shí)，不同方法所得到的系統(tǒng)發(fā)育樹在分支上總是或多或少存在差別，而在理論上無法判定哪種譜系更為合理。多維尺度分析基于對(duì)象間的相似性或不相似性，它從原始變量中得到一系列經(jīng)過簡化的新變量，并以新變量為基礎(chǔ)，對(duì)對(duì)象進(jìn)行縮放，用圖形表示對(duì)象在多維空間(Muti—dimensionaL space，MDS)中的關(guān)系的。,遺傳多維尺度分析,在遺傳多維尺度分析過程中，它以兩個(gè)群體間的遺傳距離作為尺度，在多維圖上遺

18、傳距離接近的群體會(huì)聚在一起，從而直觀形象的推斷出群體間遺傳距離的遠(yuǎn)近。但是，MDS法僅僅以兩兩亞群體間的遺傳距離作為尺度，缺乏對(duì)整個(gè)群體進(jìn)化發(fā)育關(guān)系的宏觀考慮，同時(shí)在數(shù)據(jù)轉(zhuǎn)化為一個(gè)二維平面或三維空間的尺度問題上也存在一定的局限。因此在分析古DNA數(shù)據(jù)時(shí)，宜將MDS法和構(gòu)建系統(tǒng)發(fā)育樹這兩種方法結(jié)合起來考慮，這樣可以得到更合理的結(jié)果。,圖契丹與7個(gè)現(xiàn)代對(duì)比人群的多維度分析OM=外蒙古、IM=內(nèi)蒙古、DAU=達(dá)斡爾、N H=北方漢族、U

19、IG=維吾爾、KAZ=哈薩克、UZB=烏茲別克,主成分分析,在多數(shù)實(shí)際問題中，當(dāng)我們對(duì)同一個(gè)體進(jìn)行多項(xiàng)觀察時(shí)，必定涉及多個(gè)隨機(jī)變量。由于指標(biāo)較多及指標(biāo)間有一定的相關(guān)性，勢必增加分析問題的復(fù)雜性。我們希望有一個(gè)或幾個(gè)較好的綜合指標(biāo)（即主成分）來概括信息，而且希望綜合指標(biāo)互相獨(dú)立地各代表某一方面的性質(zhì)。主成分分析的實(shí)質(zhì)是將樣本的多個(gè)指標(biāo)化為少數(shù)的幾個(gè)指標(biāo)的一種多元統(tǒng)計(jì)方法。,群體遺傳學(xué)分析,群體遺傳學(xué)主要研究基因頻率在群體中的變化規(guī)律以及

20、如何保持遺傳多樣性。群體遺傳結(jié)構(gòu)動(dòng)態(tài)分析主要這主要包括：遺傳多樣性指度分析、核苷酸不配對(duì)差異分析、中性檢驗(yàn)和分子差異性分析以及基因混合度分析等。,群體遺傳多樣性指度分析,遺傳多樣性指度分析主要指：基因多樣性(gene diversity) 核苷酸多樣性(nucleotide diversity) 平均配對(duì)差異數(shù)(mean number of pairwise differences)。,,基因多樣性,當(dāng)一個(gè)基

21、因座上有兩個(gè)或兩個(gè)以上的等位基因存在時(shí)，我們就稱該基因座具有基因多態(tài)性（genetic polymorphism）。在群體中一個(gè)基因座的基因多樣性計(jì)算公式如下：,n 是基因拷貝在樣本中的數(shù)目，對(duì)于單倍體來說 n 就是樣本的數(shù)量，對(duì)于二倍體來說 n 是標(biāo)本數(shù)的2倍。K 是等位基因的數(shù)目，Pi是第i個(gè)等位基因的群體頻率。,核苷酸多樣性,一個(gè)不依賴于樣本大小的DNA多態(tài)性的測度是兩個(gè)序列間每個(gè)位點(diǎn)上核苷酸差異的平均值或核苷酸多態(tài)性，計(jì)算公式如

22、下：,,dij是第i個(gè)等位基因和第j個(gè)等位基因間的核苷酸差異數(shù)，L是序列的長度。,平均配對(duì)差異數(shù),平均配對(duì)差異數(shù)指所有序列比對(duì)差異數(shù)的平均數(shù)，計(jì)算公式如下：,n是樣本的數(shù)量，其他參數(shù)與上面相同。,核苷酸配對(duì)差異分析與中性檢驗(yàn),一般來說，群體是否經(jīng)受擴(kuò)張、瓶頸效應(yīng)或保持群體大小恒定等會(huì)影響到群體間的遺傳距離。因此,當(dāng)我們分析群體間的親緣關(guān)系時(shí)，也需考察群體的歷史動(dòng)態(tài)，核苷酸配對(duì)差異分布分析和中性檢驗(yàn)就是兩個(gè)有力的檢驗(yàn)工具。,核苷酸配對(duì)差

23、異分布分析,核苷酸配對(duì)差異分布分析（Mismatch distribution）是將一個(gè)或多個(gè)群體的任意兩個(gè)序列進(jìn)行兩兩比較得出的各序列間配對(duì)差異的分布情況。通過觀察群體的核苷酸配對(duì)差異分布曲線，可以推測群體的歷史動(dòng)態(tài)。當(dāng)分布曲線呈現(xiàn)單峰泊松分布時(shí)，表明群體在過去經(jīng)受過擴(kuò)張或持續(xù)增長。,中性檢驗(yàn),通過中性檢驗(yàn)也可以推斷群體的歷史動(dòng)態(tài)。在古DNA研究中應(yīng)用最為廣泛的是Tajima’s 和 Fu’s Fs中性檢驗(yàn)，當(dāng)Tajima’s D值

24、和Fu’s Fs值呈現(xiàn)較大的負(fù)值，顯著偏離中性突變時(shí)，可以作為一個(gè)古代群體擴(kuò)張的證明。,中國古代馬群體擴(kuò)張,Fu’s Fs負(fù)值（-14.21，P=0.0000）,分子差異分析,分子差異性分析(analysis of molecular variance, AMOVA) 主要以分子單倍型之間的突變數(shù)目為基礎(chǔ)，通過對(duì)所研究群體進(jìn)行不同層次的歸類和劃分，可界定不同的遺傳結(jié)構(gòu)并進(jìn)行統(tǒng)計(jì)學(xué)檢驗(yàn)，從而估計(jì)出群體間、群體內(nèi)以及個(gè)體間不同層次所表現(xiàn)的差

25、異占總變異的多少，可以討論不同海拔高度、不同語系、以及地理群體間是否存在相應(yīng)的遺傳變異，尤其在比較不同群體之間遺傳相關(guān)性大小時(shí)十分有用。,基因混合度計(jì)算,一個(gè)生物類群或種群的來源往往是多元的，而祖先類群對(duì)新類群形成的貢獻(xiàn)率很可能是不相等的，要定量地刻劃每個(gè)祖先類群對(duì)新類群的基因貢獻(xiàn)的大小，就須借助基因混合度的計(jì)算。在假設(shè)兩個(gè)祖先人群A,B和混合人群M進(jìn)化速率相同的情況下，由A人群貢獻(xiàn)給M人群的基因的比例可表示為：M = 1/2 +(f

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

核苷酸配對(duì)差異分析與中性檢驗(yàn)

文檔簡介

溫馨提示

最新文檔

評(píng)論

核苷酸配對(duì)差異分析與中性檢驗(yàn)

文檔簡介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載