負相關的基因表達模式及其保守性研究.pdf_第1頁
已閱讀1頁,還剩133頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基因表達數據提供了大量基因表達的信息,這些為理解生命的本質起著重要作用?;虮磉_數據常見的處理方法包括識別差異表達的基因,聚類,雙向聚類和構建基因調控網絡等等。盡管用這些方法也能夠挖掘出隱藏在基因表達數據里面的部分信息,但所獲得的信息相對而言還是較少,例如在癌癥的研究中,雖然使用了許多先進的方法,數據和手段來研究這些疾病,如癌癥和腫瘤基因圖譜(TCGA)數據庫等等,但是當前對付癌癥依舊沒有較好的策略,這表明研究者對相關疾病還沒有獲得全部

2、的生物信息,需要反思當前這些方法存在的問題。在基因表達數據中,絕大部分基因的表達是沒有明顯變化的,只有很少的一部分基因是差異表達的。在這些差異表達的基因中,有一部分基因的表達是上調的,另外一部分基因是下調的,這些上調基因與下調基因是否存在關聯?如果基因集V的兩個子集V1和V2在部分實驗條件或時間點中具有相反的表達趨勢,而且每個子集之內的基因都具有相似的表達趨勢,那么就說子集V1和子集V2是一個負相關表達模式,簡稱負相關模式,如果這個負相

3、關模式在其他多個數據集中也存在,那么就說這個負相關模式是保守的(不變的)?;虮磉_譜中的負相關模式很少有學者進行深入系統(tǒng)探索。針對這些問題,本論文嘗試從負相關的思路出發(fā),對基因表達數據中上調和下調基因之間的這種相反變化趨勢,結合生物信息學的方法和生物學的理論,從以下幾個不同方面進行深入系統(tǒng)的探討。其主要研究內容和結果如下:
 ?。?)設計識別負相關模式的算法:
 ?、僭O計了基于形式概念分析技術的負相關雙向聚類算法(NCFCA

4、算法),通過與其他算法比較表明,NCFCA算法在平均平衡率,平均皮爾森相關系數和聚類得分方面均優(yōu)于其他算法,能更多地識別出數目平衡的負相關模式。
  ②為了能處理較大的基因表達數據,本文利用CPU的多核并行技術,設計了基于形式概念分析技術的并行負相關雙向聚類算法(NCFCA2算法),與NCFCA算法比較,NCFCA2算法在運行時間方面均大大優(yōu)于以前的NCFCA算法。
 ?。?)三個不同數據集中負相關模式及其保守性(不變性)研

5、究:
 ?、賹CFCA算法應用于酵母菌細胞周期的alpha26,alpha30和alpha38三個時間過程的數據集,選取這三個數據集中的800個細胞周期調控基因通過分析處理之后發(fā)現:微小染色體維持蛋白基因與核心組蛋白基因會形成負相關模式,而且這個負相關模式均發(fā)現于alpha26,alpha30和alpha38三個數據集。傳統(tǒng)的觀點認為,負相關的兩組基因一般來說沒有功能上的相似性,然而將這兩組基因一起做基因集富集分析之后發(fā)現,它們

6、表達相反的基因之間也具有顯著的功能相似性,這就表明參與同一生物學過程的兩組基因也可能具有相反的表達趨勢。將NCFCA算法應用于酵母菌10個其它細胞周期過程的表達數據之后發(fā)現,在這10個數據集中也發(fā)現微小染色體維持蛋白基因與核心組蛋白基因也能形成負相關模式。同時在最近出版的兩個高精度瓦片測序的基因數據集中也證實了這一觀點。這些發(fā)現表明這兩組基因形成的負相關模式可能是保守的。進一步分析它們的調控關系表明:這兩組基因形成保守的負相關模式的主要

7、原因很可能是由Clb-CDK1激酶是通過一個共調控和一個負調控來實現的,Clb-CDK1是在細胞周期過程的不同時期上調或下調這兩組基因的表達。
 ?、趯CFCA2算法應用于酵母菌的2010.Shapira04和GSE26169這兩個氧化應激響應數據集,從這兩個數據集中各自選取所有通路基因的表達數據進行分析之后發(fā)現:淀粉和蔗糖代謝通路中的部分基因和嘌呤代謝通路中的部分基因的表達曲線也是負相關的。也就是說,在環(huán)境應激響應數據中兩組通

8、路的基因也會形成負相關模式。將NCFCA2算法應用于酵母菌10個其它環(huán)境應激響應數據集中分析之后發(fā)現,這兩條通路中的部分基因也會形成負相關模式。這些發(fā)現表明這兩條通路基因之間的負相關模式可能是保守的。通過研究它們的生物學調控關系表明,這兩條通路形成保守的負相關模式的原因很可能是由雷帕霉素受體復合物1(TORC1)在蛋白酶體的輔助下是通過一個共調控和一個負調控來實現的。
 ?、蹖CFCA2算法應用于酵母菌的熱休克響應和氧化應激響應

9、的表達數據集,將這兩個數據集中基因的表達值按照方差由大到小排序,通過分別選取這兩個數據集中排名前1000的基因進行分析之后,發(fā)現核糖體蛋白基因與熱休克響應基因;核糖體蛋白基因與氧化應激響應基因的表達曲線均是負相關的。將NCFCA2算法應用于酵母菌其它的環(huán)境應激響應數據集中分析之后發(fā)現,在這些數據集中核糖體蛋白基因和其它環(huán)境應激響應的基因也能形成負相關模式。這些發(fā)現表明這個負相關模式可能是保守的。進一步研究它們的生物學調控關系表明,核糖體

10、蛋白基因與不同環(huán)境應激響應基因形成的負相關模式,很可能也是由雷帕霉素受體復合物1(TORC1)在蛋白酶體的輔助下也是通過一個共調控和一個負調控共同作用,調控核糖體蛋白基因與環(huán)境應激響應基因的表達來實現的。
  綜合以上研究結果,表明NCFCA算法和NCFCA2算法能用較少的時間和空間花費,有效地識別基因表達數據中的負相關模式,特別是識別數目平衡的負相關模式。這些負相關模式經過信息冗余過濾和基因集富集分析之后,發(fā)現只有少量負相關模式

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論