2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩99頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、新一代的高通量全基因組測序技術(shù)能夠有效地探測出整條染色體的所有遺傳變異,從而繪制出全基因組的變異圖譜,是全面而系統(tǒng)地探測群體內(nèi)常見變異(MAF>5%)、低頻變異(0.5%

2、目前為止最大規(guī)模、測序覆蓋密度最高的全基因組測序數(shù)據(jù)。面對如此豐富的數(shù)據(jù)資源,我們進(jìn)行了大量的工作,根據(jù)課題的進(jìn)度,主要分為兩個階段,其中不少研究成果已經(jīng)整理并發(fā)表。
   第一階段的工作,我們主要研究了新一代高通量測序技術(shù)下疾病關(guān)聯(lián)分析的特點。
   在過去十多年,典型的全基因組關(guān)聯(lián)分析只考慮了常見變異的情況,而用以檢驗低頻變異和自有變異的方法及相關(guān)研究卻還沒有得到很好地發(fā)展。為了尋求突破,我們使用千人基因組計劃的常染

3、色體的單核苷酸多態(tài)性數(shù)據(jù)作為下一波關(guān)聯(lián)分析方案設(shè)計的參考基礎(chǔ),從低頻變異領(lǐng)域出發(fā),探討未來的全基因組關(guān)聯(lián)分析新的時代,現(xiàn)有的關(guān)聯(lián)分析研究方法是否依然有效可用,針對疾病關(guān)聯(lián)分析應(yīng)該如何制定新的不同研究方案。
   我們首先研究low coverage pilot中常見SNP、低頻SNP之間的連鎖不平衡模式,圖解說明與過往常見SNP截然不同的連鎖不平衡分布模式。我們發(fā)現(xiàn)低頻SNP與低頻SNP之間的連鎖不平衡,和低頻SNP與常見SNP

4、之間的連鎖不平衡都比常見SNP與常見SNP之間的連鎖不平衡要弱得多。其次,我們又設(shè)計了一系列的SNP標(biāo)簽實驗,說明了由于弱連鎖不平衡,使得我們無法再用傳統(tǒng)的芯片設(shè)計那樣,通過標(biāo)簽出一系列的SNP組成一個新的檢測芯片以達(dá)到覆蓋所有已知位點的目的。我們的實驗是假設(shè)將low coverage pilot檢測出的所有的SNP都作為“虛擬芯片”(Pilot14M)的標(biāo)簽位點,我們發(fā)現(xiàn)即使如此,Pilot14M也無法全部覆蓋到exon pilot中

5、那些隨著群體樣本改變而層出不窮的低頻位點信息,我們還考慮了對缺失數(shù)據(jù)進(jìn)行插補(bǔ)的情況,但仍然觀察到有45.4%的低頻SNP無法被虛擬芯片所檢測出,Pilot14M對低頻SNP的覆蓋率僅僅只有67.7%。最后我們采用exon pilot中CEU人群的隨機(jī)外顯子區(qū)域數(shù)據(jù)集,將Pilot14M、Illumina1M和全基因組測序技術(shù)并列計算出它們在疾病與潛藏位點關(guān)聯(lián)分析時不同的效能表現(xiàn)。我們一共設(shè)計了4種疾病遺傳模型,制定了一系列的參數(shù)策略方案

6、,通過數(shù)據(jù)模擬,分別計算了不同情況下對于潛在致病位點的檢測效能。我們發(fā)現(xiàn)在常見SNP領(lǐng)域,傳統(tǒng)基因分型芯片的檢測效能夠達(dá)到疾病關(guān)聯(lián)分析的要求,但在低頻SNP領(lǐng)域,即使將研究樣本模擬到一個很大的數(shù)量,傳統(tǒng)基因分型芯片的檢測效能不是非常樂觀,無法達(dá)到全基因組測序技術(shù)同樣的高度。為了說明實驗結(jié)果的群體普遍性,我們也對CHD人群進(jìn)行了同樣的研究步驟,結(jié)果是一致的。
   我們的結(jié)論是基于已知SNP序列而設(shè)計的全基因組關(guān)聯(lián)分析方式都將不能

7、適用于低頻SNP領(lǐng)域,對于新一代全基因組的測序數(shù)據(jù),我們需要制定新的策略,使用新的方法來進(jìn)行與低頻SNP相關(guān)的關(guān)聯(lián)分析研究。
   第二階段的工作,我們主要研究了新一代高通量測序技術(shù)下群體遺傳分析的特點。
   千人基因組計劃為揭示人群遺傳可變性的分布、鑒別人群結(jié)構(gòu)和推斷自然人群的人口演變歷史提供了豐富的資源,但新的測序技術(shù)也帶來新的挑戰(zhàn),主要體現(xiàn)在三個方面:測序誤差、組裝錯誤和數(shù)據(jù)缺失。流行的群體遺傳分析手段是主成分分

8、析(PCA),它對數(shù)據(jù)的異常值和缺失值都非常敏感,因此,我們將流形學(xué)習(xí)的局部線性嵌入方法引入到群體遺傳分析中,局部線性嵌入能夠很好地克服維數(shù)災(zāi)難,揭示出隱藏在高維數(shù)據(jù)空間的低維流形群體結(jié)構(gòu)。
   我們采用了豐富多樣、各具特色的群體遺傳數(shù)據(jù),從大洲群體到祖孫三代家系,詳細(xì)討論了局部線性嵌入在刻畫群體結(jié)構(gòu)特征的獨到之處。我們發(fā)現(xiàn)通過相鄰點的信息對數(shù)據(jù)點進(jìn)行重構(gòu),能夠有效地克服異常值和數(shù)據(jù)缺失,我們還留意到將高維數(shù)據(jù)映射到低維空間的

9、表達(dá)時能夠?qū)θ后w分類體現(xiàn)出一種“群體特征向量”的新的概念,我們又從數(shù)學(xué)層面論證了主成分分析和局部線性嵌入的聯(lián)系,我們嘗試提出在群體結(jié)構(gòu)分析方面,局部線性嵌入是一種比主成分分析更為優(yōu)勝的分析手段。
   接下來,我們以局部線性嵌入為通用的群體遺傳分析框架,并發(fā)展了一種新的統(tǒng)計量,將整條染色體區(qū)域等分切割,將區(qū)域內(nèi)所有遺傳變異信息進(jìn)行整合,結(jié)合計算得到群體特征向量,套用LASSO回歸分析,進(jìn)一步討論和傳統(tǒng)的區(qū)域富集分析手段(如fis

10、her exact test)的不同之處。我們采用low coveragepilot數(shù)據(jù)集,以CEU群體為例,分別得到這兩類方法在CEU群體特征向量下的顯著關(guān)聯(lián)位點或者區(qū)域。對于常見SNP,我們分別在CEU、YRI和ASI人群中觀察到25.1%、44.9%和21.4%的與群體特征向量顯著關(guān)聯(lián)的位點,而在低頻SNP領(lǐng)域,顯著位點所占的百分比更加高,分別有89.2%,92.4%和75.1%,說明了絕大部分的低頻SNP具備群體結(jié)構(gòu)信息,而且從

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論