2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩41頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第十章 古DNA數(shù)據(jù)分析,主要內(nèi)容,系統(tǒng)發(fā)育分析遺傳多維尺度分析 主成分分析 群體遺傳學(xué)分析,系統(tǒng)發(fā)育分析,系統(tǒng)發(fā)育(phylogeny)是指一群有機(jī)體發(fā)生或進(jìn)化的歷史。系統(tǒng)發(fā)育樹(phylogenetic tree),也稱為譜系發(fā)育樹、譜系樹、系統(tǒng)發(fā)生樹、系統(tǒng)樹)就是描述這一群有機(jī)體發(fā)生或進(jìn)化順序的拓?fù)浣Y(jié)構(gòu) 。系統(tǒng)發(fā)育分析(phylogenetic analysis)就是指利用現(xiàn)有生物的形態(tài)或分子生物學(xué)數(shù)據(jù)重建(recon

2、struction)系統(tǒng)發(fā)育樹推斷系統(tǒng)發(fā)生的過程。,系統(tǒng)發(fā)育樹,系統(tǒng)發(fā)育樹形式,有根樹(rooted tree)和無根樹(unrooted tree),當(dāng)n=10時(shí),有根樹的數(shù)目是34 459 425、無根樹是2 027 025。,系統(tǒng)發(fā)育樹形式,標(biāo)度樹和非標(biāo)度樹,系統(tǒng)發(fā)育樹形式,基因樹和物種樹,圖(a)基因的分歧時(shí)間早于物種的分歧時(shí)間 (b)基因的分歧時(shí)間晚于物種的分歧時(shí)間,基因樹與物種樹之間的不同,系統(tǒng)發(fā)生樹的構(gòu)建,(1)序列比對(duì)與

3、排序;(2)系統(tǒng)發(fā)育樹的重建;(3)結(jié)果的檢驗(yàn)。,序列比對(duì)與排序,序列比對(duì)與排序是構(gòu)建系統(tǒng)發(fā)育樹、進(jìn)行系統(tǒng)發(fā)育分析的前提和必要條件。在古DNA研究中,序列比對(duì)的目的就是建立起所檢測序列與其他序列的同源關(guān)系,提取系統(tǒng)發(fā)育分析數(shù)據(jù)集。序列比對(duì)有各種不同的方法,這些方法都是將同源序列位點(diǎn)上相同或相似殘基(稱匹配位點(diǎn))與不相似殘基(稱不匹配位點(diǎn))按一定的記分規(guī)則轉(zhuǎn)化成序列之間相似性或差異性(距離)數(shù)值進(jìn)行比較。 ClustalX (Cl

4、ustalW) 是進(jìn)行此項(xiàng)工作的經(jīng)典程序。,系統(tǒng)發(fā)育樹的重建,在古DNA研究中,主要的系統(tǒng)發(fā)育樹重建方法有3類: 距離法 簡約法 似然法,,距離法,距離法(distance method)首先根據(jù)距離模型估算出分類群間的進(jìn)化距離,然后根據(jù)不同的聚類算法,從進(jìn)化距離最短的開始依次聚類,利用距離值矩陣計(jì)算出最優(yōu)樹,或?qū)⒖偟臉渲﹂L度最小化而優(yōu)化出進(jìn)化樹 。計(jì)算個(gè)體間遺傳距離的替代模

5、型有很多,最基本的核苷酸序列替代模型是P-距離模型、Jukes—Cantor單參數(shù)模型(JC69)、Kimura雙參數(shù)模型(K2P,也稱為K80),在此基礎(chǔ)上衍生出其它一系列模型,如Tajima-Nei模型、Tamura模型、Tamura-Nei模型等。,P-距離模式最簡單的距離模型,將2個(gè)序列間核苷酸差異率作為彼此間的遺傳距離,其計(jì)算公式為: 式中nd和n分別為所檢測的兩序列間的核苷酸差異數(shù)和配對(duì)總數(shù)。,P距離,,Jukes

6、-cantor距離模型,Jukes-cantor模型假定任一位點(diǎn)的4種核苷酸A、T、G和C間的替代頻率都是相同的,其遺傳距離為:,,式中P為兩個(gè)序列間核苷酸的差異率。,Kimura雙參數(shù)距離模型,事實(shí)上,在DNA 序列中4種核苷酸的替代頻率是不同的,通常核苷酸轉(zhuǎn)換的比率要高于顛換,Kimura雙參數(shù)模型考慮了轉(zhuǎn)換和顛換速率的不同,其遺傳距離為:,,式中P 和Q 分別為序列中核苷酸轉(zhuǎn)換和顛換的比率,群體之間的遺傳距離,對(duì)于群體之間的遺傳距

7、離,常用以下公式計(jì)算: 其中 dij 是指種群i和j間的平均配對(duì)差異(raw mean nucleotide pairwise difference),而d i和 dj則分別為種群i和j內(nèi)的平均配對(duì)差異。,,距離模型的選擇,當(dāng)序列分歧比較大時(shí),不同距離測度獲的結(jié)果差異比較大;但序列分歧比較小時(shí),各種模型所得的數(shù)據(jù)十分相近。目前古DNA研究的對(duì)象多為10萬年內(nèi)的人、動(dòng)植物等,其序列分歧度都不是很大,因此無論選擇哪種距離模型,對(duì)

8、實(shí)驗(yàn)的分析結(jié)果影響都比較小。在古DNA研究中一般選用Kimura雙參數(shù)距離模型,在實(shí)際應(yīng)用中,此遺傳距離模型和其它模型相差不大。,距離法常用的聚類算法,算術(shù)平均不加權(quán)的組對(duì)法(unweighted pair group method with arithmatic mean, UPGMA)、FM法(Fitch-Margoliash)、最小進(jìn)化法(minimum evolution, ME)鄰接法(neighbor-joining

9、, NJ),NJ法,NJ法在系統(tǒng)發(fā)育樹構(gòu)建中應(yīng)用最為廣泛,其原理是逐步尋找新的近鄰種類(序列),使最終生成的分子樹的遺傳距離總長度為最小。所謂“近鄰”是指在譜系樹上兩個(gè)分類單元只通過一個(gè)內(nèi)部節(jié)點(diǎn)相連。對(duì)于古DNA研究來說,通常選用NJ法構(gòu)樹。,簡約法,簡約法(parsimony methods)中最有影響的是最大簡約法(Maximum Parsimony, MP),該方法源于形態(tài)性狀的研究,運(yùn)用最相近的生物間性狀變化量最少的演化原理確

10、定最短的進(jìn)化樹,該樹僅需要最少的進(jìn)化步驟就能解釋所有DNA序列之間的變異 。構(gòu)建最簡約譜系樹的位點(diǎn)被稱為簡約信息點(diǎn)(informative site)當(dāng)無論有多少條序列進(jìn)行比對(duì)后,如果一個(gè)位點(diǎn)是信息位點(diǎn),那么在這個(gè)位點(diǎn)上它至少要包含兩種不同的核苷酸,而且每種核苷酸至少在兩個(gè)序列中出現(xiàn)。,最大簡約樹的構(gòu)建,最大簡約法應(yīng)用于序列數(shù)據(jù)構(gòu)建包括以下幾個(gè)步驟: ⑴ 確定所有的信息位點(diǎn), ⑵ 對(duì)所有可能的樹型,計(jì)算每個(gè)信息位點(diǎn)上的

11、發(fā)生核苷酸替代的最低次數(shù),并對(duì)所有信息位點(diǎn)的最低替代數(shù)目求和, ⑶ 選擇核苷酸替代次數(shù)總和最小的樹作為最簡約譜系樹。,一致樹consensus tree,在簡約法中會(huì)產(chǎn)生多顆等價(jià)的簡約樹是很常見的,大量近源序列組成的數(shù)據(jù)集有時(shí)會(huì)產(chǎn)生成百上千棵樹,無法得到準(zhǔn)確的系統(tǒng)發(fā)育信息。此時(shí)最好的辦法是將所有的譜系樹合成為一個(gè)譜系樹,即一致樹。一致樹可分為: 嚴(yán)格一致樹(strict consensus tree) 多數(shù)一致

12、樹(majority-rule consensus tree),似然法,似然法(likelihood methods)中最常用的是最大似然法(Maximum Likelihood, ML),這類方法首先要確定一個(gè)序列進(jìn)化模型,例如Kimura雙參數(shù)模型等。然后在該模型下尋找可能的系統(tǒng)樹,最后通過比較系統(tǒng)樹的似然函數(shù)值,將具有最大似然值的系統(tǒng)樹視為最佳的系統(tǒng)樹。實(shí)際上,似然值是從比對(duì)的每一個(gè)堿基位點(diǎn)衍生出來的。如果以核苷酸替代模型為基礎(chǔ)

13、,最大似然法需要確定每個(gè)分支在一定時(shí)間間隔內(nèi)核苷酸發(fā)生特定替代變化的概率。,中介網(wǎng)絡(luò)法(median network),mtDNA控制區(qū)序列系統(tǒng)發(fā)育信息位點(diǎn)少,受頻發(fā)突變影響而出現(xiàn)多系或網(wǎng)狀結(jié)構(gòu),上述這些傳統(tǒng)構(gòu)樹方法往往最后只使用一棵分子系統(tǒng)樹, 很難反映單倍型序列間的真實(shí)系統(tǒng)發(fā)育關(guān)系。此外, 這些方法在構(gòu)建分子系統(tǒng)樹時(shí),不考慮單倍型的頻率及其地理來源的信息。 Bandelt等提出一種新的構(gòu)樹方法—中介網(wǎng)絡(luò)法,可以構(gòu)建中介網(wǎng)絡(luò)圖,該圖

14、包含所有最簡約的樹,而且可顯示序列的信息(如同質(zhì)性位點(diǎn)的位置、突變熱點(diǎn)以及分辨單倍型類群等),在聚類簇中節(jié)點(diǎn)之間的距離越近,它們的單倍型就越相近。,不同構(gòu)樹方法的評(píng)估和比較,在研究實(shí)際問題的過程中,不同譜系構(gòu)樹方法獲得的結(jié)果不盡相同。目前還沒有一種構(gòu)樹方法可以適合于所有的數(shù)據(jù)和條件。在構(gòu)建系統(tǒng)發(fā)育樹時(shí),最好同時(shí)使用多種方法構(gòu)建系統(tǒng)樹,多種方法所獲系統(tǒng)樹的一致,將大大提高結(jié)果的可靠性。當(dāng)然無論使用何種方法重建系統(tǒng)樹,都必須對(duì)其分支格局的

15、統(tǒng)計(jì)置信度進(jìn)行檢驗(yàn)。,系統(tǒng)發(fā)育樹的檢驗(yàn),當(dāng)一個(gè)系統(tǒng)樹建成后,確定其可靠性十分重要。因此在構(gòu)建系統(tǒng)發(fā)育樹之后,應(yīng)當(dāng)對(duì)所建立的系統(tǒng)樹的準(zhǔn)確度加以評(píng)估。一個(gè)系統(tǒng)樹一般會(huì)有兩類誤差:拓?fù)浣Y(jié)構(gòu)誤差和分支長度誤差。 在檢驗(yàn)分子系統(tǒng)樹的精確性時(shí)一般首先檢驗(yàn)分支拓?fù)浣Y(jié)構(gòu)存在的誤差,而分枝長度估計(jì)的可靠性可以通過自展法來檢驗(yàn)。,自展法(bootstrap method),自展法根據(jù)從原始數(shù)據(jù)集中隨機(jī)抽樣產(chǎn)生的自展數(shù)據(jù)集構(gòu)建多個(gè)系統(tǒng)發(fā)育樹,然后檢驗(yàn)這些譜

16、系樹對(duì)一致樹各個(gè)支系的支持率。自展法可以對(duì)距離構(gòu)樹方法、最大簡約建樹方法、最大似然構(gòu)樹方法以及衍生出的其它任何方法進(jìn)行評(píng)估。典型的自展檢驗(yàn)分析結(jié)果是一個(gè)數(shù)字,這個(gè)數(shù)字同一個(gè)系統(tǒng)發(fā)育進(jìn)化樹的一個(gè)特定分支相關(guān),而這個(gè)系統(tǒng)發(fā)育進(jìn)化樹則給出了支持單源進(jìn)化分支的自展的重復(fù)比例。如果自展值大于70%,那么所得到的系統(tǒng)發(fā)育進(jìn)化樹能夠反映真實(shí)的系統(tǒng)發(fā)生史的可能性要大于95%。,遺傳多維尺度分析,對(duì)于親緣關(guān)系較近的群體,用構(gòu)建系統(tǒng)發(fā)育樹的方法分析其

17、遺傳關(guān)系有一定的局限性。當(dāng)親緣關(guān)系很近時(shí),不同方法所得到的系統(tǒng)發(fā)育樹在分支上總是或多或少存在差別,而在理論上無法判定哪種譜系更為合理。 多維尺度分析基于對(duì)象間的相似性或不相似性,它從原始變量中得到一系列經(jīng)過簡化的新變量,并以新變量為基礎(chǔ),對(duì)對(duì)象進(jìn)行縮放,用圖形表示對(duì)象在多維空間(Muti—dimensionaL space,MDS)中的關(guān)系的。,遺傳多維尺度分析,在遺傳多維尺度分析過程中,它以兩個(gè)群體間的遺傳距離作為尺度,在多維圖上遺

18、傳距離接近的群體會(huì)聚在一起,從而直觀形象的推斷出群體間遺傳距離的遠(yuǎn)近。但是,MDS法僅僅以兩兩亞群體間的遺傳距離作為尺度,缺乏對(duì)整個(gè)群體進(jìn)化發(fā)育關(guān)系的宏觀考慮,同時(shí)在數(shù)據(jù)轉(zhuǎn)化為一個(gè)二維平面或三維空間的尺度問題上也存在一定的局限。因此在分析古DNA數(shù)據(jù)時(shí),宜將MDS法和構(gòu)建系統(tǒng)發(fā)育樹這兩種方法結(jié)合起來考慮,這樣可以得到更合理的結(jié)果。,圖 契丹與7個(gè)現(xiàn)代對(duì)比人群的多維度分析OM=外蒙古、IM=內(nèi)蒙古、DAU=達(dá)斡爾、N H=北方漢族、U

19、IG=維吾爾、KAZ=哈薩克、UZB=烏茲別克,主成分分析,在多數(shù)實(shí)際問題中,當(dāng)我們對(duì)同一個(gè)體進(jìn)行多項(xiàng)觀察時(shí),必定涉及多個(gè)隨機(jī)變量。由于指標(biāo)較多及指標(biāo)間有一定的相關(guān)性,勢必增加分析問題的復(fù)雜性。我們希望有一個(gè)或幾個(gè)較好的綜合指標(biāo)(即主成分)來概括信息,而且希望綜合指標(biāo)互相獨(dú)立地各代表某一方面的性質(zhì)。主成分分析的實(shí)質(zhì)是將樣本的多個(gè)指標(biāo)化為少數(shù)的幾個(gè)指標(biāo)的一種多元統(tǒng)計(jì)方法。,群體遺傳學(xué)分析,群體遺傳學(xué)主要研究基因頻率在群體中的變化規(guī)律以及

20、如何保持遺傳多樣性。群體遺傳結(jié)構(gòu)動(dòng)態(tài)分析主要這主要包括:遺傳多樣性指度分析、核苷酸不配對(duì)差異分析、中性檢驗(yàn)和分子差異性分析以及基因混合度分析等。,群體遺傳多樣性指度分析,遺傳多樣性指度分析主要指: 基因多樣性(gene diversity) 核苷酸多樣性(nucleotide diversity) 平均配對(duì)差異數(shù)(mean number of pairwise differences)。,,基因多樣性,當(dāng)一個(gè)基

21、因座上有兩個(gè)或兩個(gè)以上的等位基因存在時(shí),我們就稱該基因座具有基因多態(tài)性(genetic polymorphism)。在群體中一個(gè)基因座的基因多樣性計(jì)算公式如下:,n 是基因拷貝在樣本中的數(shù)目,對(duì)于單倍體來說 n 就是樣本的數(shù)量,對(duì)于二倍體來說 n 是標(biāo)本數(shù)的2倍。K 是等位基因的數(shù)目,Pi是第i個(gè)等位基因的群體頻率。,核苷酸多樣性,一個(gè)不依賴于樣本大小的DNA多態(tài)性的測度是兩個(gè)序列間每個(gè)位點(diǎn)上核苷酸差異的平均值或核苷酸多態(tài)性,計(jì)算公式如

22、下:,,dij是第i個(gè)等位基因和第j個(gè)等位基因間的核苷酸差異數(shù),L是序列的長度。,平均配對(duì)差異數(shù),平均配對(duì)差異數(shù)指所有序列比對(duì)差異數(shù)的平均數(shù),計(jì)算公式如下 :,n是樣本的數(shù)量,其他參數(shù)與上面相同。,核苷酸配對(duì)差異分析與中性檢驗(yàn),一般來說,群體是否經(jīng)受擴(kuò)張、瓶頸效應(yīng)或保持群體大小恒定等會(huì)影響到群體間的遺傳距離。因此,當(dāng)我們分析群體間的親緣關(guān)系時(shí),也需考察群體的歷史動(dòng)態(tài),核苷酸配對(duì)差異分布分析和中性檢驗(yàn)就是兩個(gè)有力的檢驗(yàn)工具。,核苷酸配對(duì)差

23、異分布分析,核苷酸配對(duì)差異分布分析(Mismatch distribution)是將一個(gè)或多個(gè)群體的任意兩個(gè)序列進(jìn)行兩兩比較得出的各序列間配對(duì)差異的分布情況。通過觀察群體的核苷酸配對(duì)差異分布曲線,可以推測群體的歷史動(dòng)態(tài)。當(dāng)分布曲線呈現(xiàn)單峰泊松分布時(shí),表明群體在過去經(jīng)受過擴(kuò)張或持續(xù)增長。,中性檢驗(yàn),通過中性檢驗(yàn)也可以推斷群體的歷史動(dòng)態(tài)。在古DNA研究中應(yīng)用最為廣泛的是Tajima’s 和 Fu’s Fs中性檢驗(yàn),當(dāng)Tajima’s D值

24、和Fu’s Fs值呈現(xiàn)較大的負(fù)值,顯著偏離中性突變時(shí),可以作為一個(gè)古代群體擴(kuò)張的證明。,中國古代馬群體擴(kuò)張,Fu’s Fs負(fù)值(-14.21,P=0.0000),分子差異分析,分子差異性分析(analysis of molecular variance, AMOVA) 主要以分子單倍型之間的突變數(shù)目為基礎(chǔ),通過對(duì)所研究群體進(jìn)行不同層次的歸類和劃分,可界定不同的遺傳結(jié)構(gòu)并進(jìn)行統(tǒng)計(jì)學(xué)檢驗(yàn),從而估計(jì)出群體間、群體內(nèi)以及個(gè)體間不同層次所表現(xiàn)的差

25、異占總變異的多少,可以討論不同海拔高度、不同語系、以及地理群體間是否存在相應(yīng)的遺傳變異,尤其在比較不同群體之間遺傳相關(guān)性大小時(shí)十分有用。,基因混合度計(jì)算,一個(gè)生物類群或種群的來源往往是多元的,而祖先類群對(duì)新類群形成的貢獻(xiàn)率很可能是不相等的,要定量地刻劃每個(gè)祖先類群對(duì)新類群的基因貢獻(xiàn)的大小,就須借助基因混合度的計(jì)算。在假設(shè)兩個(gè)祖先人群A,B和混合人群M進(jìn)化速率相同的情況下,由A人群貢獻(xiàn)給M人群的基因的比例可表示為:M = 1/2 +(f

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論