版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、近年來,新一代高通量DNA測序技術(shù)的快速發(fā)展,給人類研究基因組學(xué)和轉(zhuǎn)錄組學(xué)提供了巨大的技術(shù)支持,取得前所未有的成就?;谛乱淮鷾y序技術(shù)的RNA-seq技術(shù),正快速取代傳統(tǒng)基因芯片技術(shù),成為研究轉(zhuǎn)錄組學(xué)的標(biāo)準(zhǔn)技術(shù)手段。RNA-seq測序技術(shù)直接對mRNA反轉(zhuǎn)錄出的cDNA片段進(jìn)行高通量的測序,獲得海量的讀段數(shù)據(jù),用以研究測序樣本中mRNA的表達(dá)程度。相比傳統(tǒng)基因芯片技術(shù),RNA-seq測序技術(shù)無需設(shè)計(jì)已知序列探針,能在全基因組范圍內(nèi)以單個(gè)
2、堿基為基本單位量化轉(zhuǎn)錄本片段,并能應(yīng)用于新基因的識別,具有高通量,高信噪比,高靈敏度,所需樣本少等優(yōu)點(diǎn),被廣泛運(yùn)用于不同研究領(lǐng)域。
在轉(zhuǎn)錄組學(xué)研究中,基因表達(dá)水平分析主要研究基因以及所包含的剪接異構(gòu)體在轉(zhuǎn)錄過程中表達(dá)程度,對人們了解基因的調(diào)控機(jī)制,對疾病的早期預(yù)防,診斷和治療等方面都有重要意義。根據(jù)RNA-seq數(shù)據(jù)分析流程,基因表達(dá)分析的研究內(nèi)容可分為表達(dá)水平估計(jì)和差異表達(dá)分析兩部分。因此,本論文的主要工作是圍繞上述兩個(gè)方向
3、來展開研究和討論,主要內(nèi)容如下幾個(gè)方面:
1.基于堿基偏差的表達(dá)水平估計(jì)。表達(dá)水平估計(jì)作為RNA-seq數(shù)據(jù)分析中最基本實(shí)驗(yàn)?zāi)康闹?,一直以來都是一個(gè)具有挑戰(zhàn)性的工作。在RNA-seq數(shù)據(jù)中,數(shù)據(jù)偏差導(dǎo)致基因上讀段呈現(xiàn)非均勻分布,是影響表達(dá)水平準(zhǔn)確估計(jì)的關(guān)鍵因素。針對此問題,大量表達(dá)水平估計(jì)方法采用不同偏差糾錯(cuò)的策略來消除數(shù)據(jù)偏差的影響。因此,提出了一個(gè)基于堿基偏差的表達(dá)水平估計(jì)方法——PBSeq。該方法采用Poisson分布
4、擬合每個(gè)堿基上的讀段數(shù)據(jù)。通過兩個(gè)非參數(shù)模型分別估計(jì)每個(gè)堿基上的位置偏差和序列偏差,將偏差值當(dāng)做權(quán)重融入到模型中。通過一個(gè)模擬數(shù)據(jù)集和多個(gè)真實(shí)數(shù)據(jù)集的評估,PBSeq方法在估計(jì)基因和剪接異構(gòu)體表達(dá)水平上,能獲得極具競爭力的結(jié)果,并且大幅度的提高了計(jì)算效率。PBSeq方法不僅能估計(jì)基因和剪接異構(gòu)體的表達(dá)水平,同時(shí)還能提供相應(yīng)表達(dá)水平的不確定性。通過差異表達(dá)分析的驗(yàn)證,表達(dá)水平的不確定性能有效的提高后續(xù)分析的準(zhǔn)確性。
2.基于聯(lián)合
5、估計(jì)外顯子偏差的表達(dá)水平估計(jì)。RNA-seq數(shù)據(jù)在不同條件或者不同組織樣本中,其讀段分布的變化趨勢具有高度相似性。但是現(xiàn)有表達(dá)水平估計(jì)方法中很少考慮到數(shù)據(jù)偏差在不同樣本之間的關(guān)聯(lián),通常都是單獨(dú)處理每個(gè)數(shù)據(jù)樣本?;诖藬?shù)據(jù)特點(diǎn),提出了一個(gè)基于聯(lián)合估計(jì)外顯子偏差的表達(dá)水平估計(jì)方法——PGSeq。該方法采用Poisson-Gamma混合模型來估計(jì)基因和剪接異構(gòu)體的表達(dá)水平,其中Poisson分布用來擬合基因中每個(gè)外顯子上的讀段數(shù)據(jù)。Gamma
6、分布用來模擬數(shù)據(jù)偏差,其參數(shù)在多個(gè)樣本之間是共享的,表示讀段分布的變化趨勢在不同樣本之間具有高度相似性。通過一個(gè)模擬數(shù)據(jù)集和多個(gè)真實(shí)數(shù)據(jù)集的評估,PGSeq方法能最為準(zhǔn)確的估計(jì)基因和剪接異構(gòu)體的表達(dá)水平,并且也能提供了相應(yīng)表達(dá)水平的不確定性。采用差異表達(dá)分析進(jìn)一步驗(yàn)證,PGSeq方法估計(jì)的表達(dá)水平以及相應(yīng)的不確定性能有效提高差異表達(dá)分析的準(zhǔn)確性,特別是在低表達(dá)基因上。
3.基于表達(dá)水平不確定性的差異表達(dá)分析。作為RNA-seq
7、數(shù)據(jù)分析中最基本實(shí)驗(yàn)?zāi)康闹坏牟町惐磉_(dá)分析,受到科研人員的格外關(guān)注。在目前大量的差異表達(dá)分析方法中,很少有方法考慮表達(dá)水平不確定性。此外,絕大部分方法僅能檢測差異表達(dá)的基因,只有少數(shù)方法能夠檢測差異表達(dá)的剪接異構(gòu)體。因此,提出了一個(gè)基于貝葉斯框架的差異表達(dá)分析方法——BDSeq。該方法同時(shí)考慮了表達(dá)水平以及相應(yīng)的表達(dá)水平不確定性,能夠同時(shí)尋找差異表達(dá)的基因和剪接異構(gòu)體。BDSeq方法采用兩種不同的建模策略來嵌入表達(dá)水平的不確定性,從而產(chǎn)
8、生了兩個(gè)不同的模型——基本模型BDSeqB和快速模型BDSeqF。通過多個(gè)真實(shí)數(shù)據(jù)集的評估,考慮表達(dá)水平不確定性能有效提高差異表達(dá)分析的準(zhǔn)確性,其中BDSeqB模型能獲得更準(zhǔn)確的結(jié)果,但是BDSeqF具有更高的計(jì)算效率。
4.RNA-seq數(shù)據(jù)分析通道。為了方便用戶使用本論文提出的方法,設(shè)計(jì)了一個(gè)系統(tǒng)的RNA-seq數(shù)據(jù)分析通道——UFP-RSeq。該分析通道包括讀段定位,表達(dá)水平估計(jì)和差異表達(dá)分析三個(gè)模塊,能完成一個(gè)RNA-
9、seq數(shù)據(jù)的基因表達(dá)水平分析過程。讀段定位模塊選取了最流行的定位軟件Bowtie。表達(dá)水平估計(jì)模塊中包含了提出的GamSeq,PBSeq和PGSeq三個(gè)方法。而差異表達(dá)分析模塊中由BDSeq方法和三個(gè)基于讀段數(shù)據(jù)的方法構(gòu)成。根據(jù)用戶需求和實(shí)驗(yàn)?zāi)繕?biāo),提供了相應(yīng)的建議來幫助用戶選擇合適的處理途徑和方法。UFP-RSeq分析通道中所有方法都提供了代碼和詳細(xì)文檔,從地址http://parnec.nuaa.edu.cn/liux/UFP-RSe
10、q.html上可免費(fèi)下載。
綜上所述,本論文著重研究了在RNA-seq數(shù)據(jù)中基因表達(dá)水平分析的表達(dá)水平估計(jì)和差異表達(dá)分析兩個(gè)研究方向。在表達(dá)水平估計(jì)中,對于數(shù)據(jù)偏差造成的讀段非均勻分布問題,逐步提出了GamSeq,PBSeq和PGSeq等方法。在差異表達(dá)分析中提出了BDSeq方法,該方法基于提出的表達(dá)水平估計(jì)方法的結(jié)果,并考慮了表達(dá)水平不確定性。實(shí)驗(yàn)結(jié)果證明,我們提出的多個(gè)方法都取得理想的計(jì)算精度和計(jì)算效率。為了方便用戶使用,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于高通量RNa-seq數(shù)據(jù)轉(zhuǎn)錄組拼接的算法研究.pdf
- 改進(jìn)的RNA-Seq數(shù)據(jù)轉(zhuǎn)錄組表達(dá)分析研究.pdf
- 基于RNA-seq的油菜抗旱基因的高通量克隆和功能分析.pdf
- 高通量測序數(shù)據(jù)存儲系統(tǒng)
- 基于平滑LDA的RNA-Seq數(shù)據(jù)分析研究.pdf
- 11574.高通量測序數(shù)據(jù)誤差分析方法研究
- 基于高通量RNA-seq數(shù)據(jù)的水稻亞種特異性編碼基因鑒定及長非編碼RNA識別.pdf
- 針對RNA-Seq數(shù)據(jù)的基因異構(gòu)體表達(dá)水平計(jì)算方法研究.pdf
- 高通量DNA測序數(shù)據(jù)的分布密度分析及其應(yīng)用.pdf
- 基于RNA-seq數(shù)據(jù)的CCA基因共表達(dá)網(wǎng)絡(luò)的構(gòu)建和分析.pdf
- 基于RNA-Seq技術(shù)的人轉(zhuǎn)錄組分析研究.pdf
- 基于腫瘤RNA-Seq數(shù)據(jù)識別融合基因的方法研究.pdf
- 基于高通量測序數(shù)據(jù)的遺傳調(diào)控元件識別及算法研究.pdf
- 基于概率模型的RNA-Seq數(shù)據(jù)分析.pdf
- 水貂被毛色素沉積機(jī)理及基于高通量RNA-seq皮膚轉(zhuǎn)錄組注釋研究.pdf
- 基于RNA-Seq數(shù)據(jù)的基因預(yù)測和長非編碼RNA鑒定的分析方法.pdf
- 玉米高通量測序數(shù)據(jù)SNP檢測流程的優(yōu)化及應(yīng)用.pdf
- Docker生物云計(jì)算平臺分析松材線蟲高通量測序數(shù)據(jù)的應(yīng)用研究.pdf
- 高通量測序數(shù)據(jù)中病毒基因組的生物信息學(xué)分析方法探索.pdf
- 基于RNA-seq技術(shù)對西瓜果皮色澤差異表達(dá)基因的分析.pdf
評論
0/150
提交評論