基于癌癥基因測序數(shù)據(jù)的統(tǒng)計(jì)方法研究.pdf_第1頁
已閱讀1頁,還剩127頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、近年來,隨著新一代基因測序技術(shù)飛速的發(fā)展,好幾款使用大規(guī)模平行循環(huán)芯片測序技術(shù)的測序儀在市面上出現(xiàn)并得到了廣泛的應(yīng)用?,F(xiàn)在,在小型實(shí)驗(yàn)室里也能夠獨(dú)立完成以前只有大型測序中心才能夠開展的項(xiàng)目。新一代基因測序技術(shù)己廣泛應(yīng)用于生物學(xué)研究,并取得了顯著的科技成果。相比于傳統(tǒng)的基因測序技術(shù),新一代基因測序技術(shù)極大地降低了測序成本,并且在效率上得到了顯著地提高。但是,新一代基因測序技術(shù)在測序長度以及測序準(zhǔn)確率上仍有一定的劣勢。
   我們將

2、比以往更容易地獲得大量的基因組測序數(shù)據(jù),但如何基于這些巨量的基因組測序數(shù)據(jù)進(jìn)行高效快速的統(tǒng)計(jì)分析,并得到準(zhǔn)確的統(tǒng)計(jì)推斷及有效的統(tǒng)計(jì)檢驗(yàn),對統(tǒng)計(jì)方法研究來說仍是一個(gè)極大的挑戰(zhàn)。本文基于肺癌樣本的外顯子測序數(shù)據(jù)研究基因體細(xì)胞突變和癌癥的關(guān)系,進(jìn)行了如下工作:基于基因測序數(shù)據(jù)推斷研究對象或個(gè)體的基因型;估計(jì)基因組各個(gè)位點(diǎn)的變異率或雜合丟失率;對基因組各個(gè)位點(diǎn)是否為體細(xì)胞突變進(jìn)行相關(guān)檢驗(yàn);尋找突變后可能直接影響癌癥病發(fā)的驅(qū)動基因以及探尋驅(qū)動基因

3、間的交互作用。
   基于基因測序數(shù)據(jù)的基因型推斷主要有兩個(gè)難點(diǎn):測序錯誤與樣本混合。但是現(xiàn)有生物軟件的的推斷方法一般是基于二項(xiàng)分布的貝葉斯判別分析,往往并沒有考慮樣本混合這一因素,其可能的后果是低估了變異率以及漏判了真正的變異位點(diǎn)。我們的方法引入了包括每個(gè)位點(diǎn)的變異率、測序錯誤率以及每個(gè)腫瘤樣本的混合率在內(nèi)的若干參數(shù),并分別基于染色體位點(diǎn)維度和腫瘤樣本維度建立基于二項(xiàng)分布的似然模型,最后用EM方法得到各個(gè)參數(shù)的極大似然估計(jì),并

4、且用后驗(yàn)概率作為基因型的判斷依據(jù)。模擬結(jié)果顯示,我們的方法比傳統(tǒng)貝葉斯方法有著更高的準(zhǔn)確率,且EM算法相比于其他方法有著更短的運(yùn)行時(shí)間。模擬結(jié)果同時(shí)也證實(shí)了引入樣本混合率參數(shù)的必要性與合理性。真實(shí)數(shù)據(jù)的結(jié)果顯示,在考慮樣本混合率的條件下,我們的方法不僅找到了已有軟件發(fā)現(xiàn)豹大多數(shù)突變位點(diǎn),還找到了更多可能突變的新位點(diǎn)。
   在基因型推斷的同時(shí),我們的模型也可以得到每個(gè)位點(diǎn)變異率的估計(jì)。我們通過變異率參數(shù)的似然比檢驗(yàn)來判別某位點(diǎn)是

5、否為體細(xì)胞測序變異(SomaticSNVs)。模擬結(jié)果展示了影響檢驗(yàn)功效的各個(gè)因素,并且證實(shí)了該檢驗(yàn)的合理性以及我們基于極大似然估計(jì)的循環(huán)迭代算法的有效性。真實(shí)數(shù)據(jù)的結(jié)果顯示,我們找到了一些可能為體細(xì)胞突變的新SNV。類似地,當(dāng)我們在似然中引入了雜合丟失率(LOH)后,我們也可以得到某位點(diǎn)雜合丟失率的估計(jì)并做相應(yīng)的統(tǒng)計(jì)檢驗(yàn)。但是引入LOH在真實(shí)數(shù)據(jù)中的有效性仍值得進(jìn)一步地探討與研究。
   為了尋找可能直接導(dǎo)致癌癥的驅(qū)動基因,我

6、們分別按照影響蛋白質(zhì)功能及堿基對體細(xì)胞突變進(jìn)行了分類,并統(tǒng)計(jì)了每個(gè)腫瘤樣本在各個(gè)基因上的各個(gè)不同類型的突變個(gè)數(shù)并得到了相應(yīng)的計(jì)數(shù)數(shù)據(jù)。我們同時(shí)考慮到了變異類型、基因長度以及不同樣本的背景變異率,建立了基于泊松分布的似然模型,并引入了原假設(shè)下x2混合分布的偏移系數(shù),構(gòu)造了一個(gè)邊界條件下的多元似然比檢驗(yàn)的方法。模擬結(jié)果顯示,相比于現(xiàn)有的基于伯努利分布的方法,我們的方法有著更高的功效。真實(shí)數(shù)據(jù)的結(jié)果顯示,我們能找到更多的驅(qū)動基因,并且在生物學(xué)

7、上可解釋。類似地,我們的驅(qū)動基因檢驗(yàn)方法也可以靈活地應(yīng)用于生物通路(pathway)或基因集合的檢驗(yàn)。
   基因間的交互作用研究是近年來有挑戰(zhàn)性的熱點(diǎn)問題。我們用基于驅(qū)動基因檢驗(yàn)所估計(jì)的參數(shù)進(jìn)行蒙特卡洛模擬,進(jìn)而得到了基因兩兩之間交互作用的檢驗(yàn)。但是,3階以上的基因交互效應(yīng)檢驗(yàn)是相對困難的,我們可以嘗試應(yīng)用多元降維法。模擬結(jié)果顯示,我們的方法較簡單置換檢驗(yàn)方法更加有效地排除了基因長度的的混淆因素,并且真實(shí)數(shù)據(jù)分析的結(jié)果表明交互

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論