

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、近年來,新一代高通量DNA測序技術的快速發(fā)展,給人類研究基因組學和轉錄組學提供了巨大的技術支持,取得前所未有的成就?;谛乱淮鷾y序技術的RNA-seq技術,正快速取代傳統(tǒng)基因芯片技術,成為研究轉錄組學的標準技術手段。RNA-seq測序技術直接對mRNA反轉錄出的cDNA片段進行高通量的測序,獲得海量的讀段數(shù)據(jù),用以研究測序樣本中mRNA的表達程度。相比傳統(tǒng)基因芯片技術,RNA-seq測序技術無需設計已知序列探針,能在全基因組范圍內以單個
2、堿基為基本單位量化轉錄本片段,并能應用于新基因的識別,具有高通量,高信噪比,高靈敏度,所需樣本少等優(yōu)點,被廣泛運用于不同研究領域。
在轉錄組學研究中,基因表達水平分析主要研究基因以及所包含的剪接異構體在轉錄過程中表達程度,對人們了解基因的調控機制,對疾病的早期預防,診斷和治療等方面都有重要意義。根據(jù)RNA-seq數(shù)據(jù)分析流程,基因表達分析的研究內容可分為表達水平估計和差異表達分析兩部分。因此,本論文的主要工作是圍繞上述兩個方向
3、來展開研究和討論,主要內容如下幾個方面:
1.基于堿基偏差的表達水平估計。表達水平估計作為RNA-seq數(shù)據(jù)分析中最基本實驗目的之一,一直以來都是一個具有挑戰(zhàn)性的工作。在RNA-seq數(shù)據(jù)中,數(shù)據(jù)偏差導致基因上讀段呈現(xiàn)非均勻分布,是影響表達水平準確估計的關鍵因素。針對此問題,大量表達水平估計方法采用不同偏差糾錯的策略來消除數(shù)據(jù)偏差的影響。因此,提出了一個基于堿基偏差的表達水平估計方法——PBSeq。該方法采用Poisson分布
4、擬合每個堿基上的讀段數(shù)據(jù)。通過兩個非參數(shù)模型分別估計每個堿基上的位置偏差和序列偏差,將偏差值當做權重融入到模型中。通過一個模擬數(shù)據(jù)集和多個真實數(shù)據(jù)集的評估,PBSeq方法在估計基因和剪接異構體表達水平上,能獲得極具競爭力的結果,并且大幅度的提高了計算效率。PBSeq方法不僅能估計基因和剪接異構體的表達水平,同時還能提供相應表達水平的不確定性。通過差異表達分析的驗證,表達水平的不確定性能有效的提高后續(xù)分析的準確性。
2.基于聯(lián)合
5、估計外顯子偏差的表達水平估計。RNA-seq數(shù)據(jù)在不同條件或者不同組織樣本中,其讀段分布的變化趨勢具有高度相似性。但是現(xiàn)有表達水平估計方法中很少考慮到數(shù)據(jù)偏差在不同樣本之間的關聯(lián),通常都是單獨處理每個數(shù)據(jù)樣本。基于此數(shù)據(jù)特點,提出了一個基于聯(lián)合估計外顯子偏差的表達水平估計方法——PGSeq。該方法采用Poisson-Gamma混合模型來估計基因和剪接異構體的表達水平,其中Poisson分布用來擬合基因中每個外顯子上的讀段數(shù)據(jù)。Gamma
6、分布用來模擬數(shù)據(jù)偏差,其參數(shù)在多個樣本之間是共享的,表示讀段分布的變化趨勢在不同樣本之間具有高度相似性。通過一個模擬數(shù)據(jù)集和多個真實數(shù)據(jù)集的評估,PGSeq方法能最為準確的估計基因和剪接異構體的表達水平,并且也能提供了相應表達水平的不確定性。采用差異表達分析進一步驗證,PGSeq方法估計的表達水平以及相應的不確定性能有效提高差異表達分析的準確性,特別是在低表達基因上。
3.基于表達水平不確定性的差異表達分析。作為RNA-seq
7、數(shù)據(jù)分析中最基本實驗目的之一的差異表達分析,受到科研人員的格外關注。在目前大量的差異表達分析方法中,很少有方法考慮表達水平不確定性。此外,絕大部分方法僅能檢測差異表達的基因,只有少數(shù)方法能夠檢測差異表達的剪接異構體。因此,提出了一個基于貝葉斯框架的差異表達分析方法——BDSeq。該方法同時考慮了表達水平以及相應的表達水平不確定性,能夠同時尋找差異表達的基因和剪接異構體。BDSeq方法采用兩種不同的建模策略來嵌入表達水平的不確定性,從而產
8、生了兩個不同的模型——基本模型BDSeqB和快速模型BDSeqF。通過多個真實數(shù)據(jù)集的評估,考慮表達水平不確定性能有效提高差異表達分析的準確性,其中BDSeqB模型能獲得更準確的結果,但是BDSeqF具有更高的計算效率。
4.RNA-seq數(shù)據(jù)分析通道。為了方便用戶使用本論文提出的方法,設計了一個系統(tǒng)的RNA-seq數(shù)據(jù)分析通道——UFP-RSeq。該分析通道包括讀段定位,表達水平估計和差異表達分析三個模塊,能完成一個RNA-
9、seq數(shù)據(jù)的基因表達水平分析過程。讀段定位模塊選取了最流行的定位軟件Bowtie。表達水平估計模塊中包含了提出的GamSeq,PBSeq和PGSeq三個方法。而差異表達分析模塊中由BDSeq方法和三個基于讀段數(shù)據(jù)的方法構成。根據(jù)用戶需求和實驗目標,提供了相應的建議來幫助用戶選擇合適的處理途徑和方法。UFP-RSeq分析通道中所有方法都提供了代碼和詳細文檔,從地址http://parnec.nuaa.edu.cn/liux/UFP-RSe
10、q.html上可免費下載。
綜上所述,本論文著重研究了在RNA-seq數(shù)據(jù)中基因表達水平分析的表達水平估計和差異表達分析兩個研究方向。在表達水平估計中,對于數(shù)據(jù)偏差造成的讀段非均勻分布問題,逐步提出了GamSeq,PBSeq和PGSeq等方法。在差異表達分析中提出了BDSeq方法,該方法基于提出的表達水平估計方法的結果,并考慮了表達水平不確定性。實驗結果證明,我們提出的多個方法都取得理想的計算精度和計算效率。為了方便用戶使用,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于高通量RNa-seq數(shù)據(jù)轉錄組拼接的算法研究.pdf
- 改進的RNA-Seq數(shù)據(jù)轉錄組表達分析研究.pdf
- 基于RNA-seq的油菜抗旱基因的高通量克隆和功能分析.pdf
- 高通量測序數(shù)據(jù)存儲系統(tǒng)
- 基于平滑LDA的RNA-Seq數(shù)據(jù)分析研究.pdf
- 11574.高通量測序數(shù)據(jù)誤差分析方法研究
- 基于高通量RNA-seq數(shù)據(jù)的水稻亞種特異性編碼基因鑒定及長非編碼RNA識別.pdf
- 針對RNA-Seq數(shù)據(jù)的基因異構體表達水平計算方法研究.pdf
- 高通量DNA測序數(shù)據(jù)的分布密度分析及其應用.pdf
- 基于RNA-seq數(shù)據(jù)的CCA基因共表達網(wǎng)絡的構建和分析.pdf
- 基于RNA-Seq技術的人轉錄組分析研究.pdf
- 基于腫瘤RNA-Seq數(shù)據(jù)識別融合基因的方法研究.pdf
- 基于高通量測序數(shù)據(jù)的遺傳調控元件識別及算法研究.pdf
- 基于概率模型的RNA-Seq數(shù)據(jù)分析.pdf
- 水貂被毛色素沉積機理及基于高通量RNA-seq皮膚轉錄組注釋研究.pdf
- 基于RNA-Seq數(shù)據(jù)的基因預測和長非編碼RNA鑒定的分析方法.pdf
- 玉米高通量測序數(shù)據(jù)SNP檢測流程的優(yōu)化及應用.pdf
- Docker生物云計算平臺分析松材線蟲高通量測序數(shù)據(jù)的應用研究.pdf
- 高通量測序數(shù)據(jù)中病毒基因組的生物信息學分析方法探索.pdf
- 基于RNA-seq技術對西瓜果皮色澤差異表達基因的分析.pdf
評論
0/150
提交評論