人類細(xì)胞系中遠(yuǎn)程增強(qiáng)子--啟動子相互作用的識別研究.pdf_第1頁
已閱讀1頁,還剩103頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、真核細(xì)胞中,基因表達(dá)精準(zhǔn)的時間和空間調(diào)控對于不同生物學(xué)進(jìn)程尤為關(guān)鍵。其中,眾多的DNA反應(yīng)活動受到不同順式調(diào)控元件的協(xié)同調(diào)控,如轉(zhuǎn)錄啟動子、增強(qiáng)子和絕緣子等。由于染色質(zhì)折疊,空間染色質(zhì)結(jié)構(gòu)使得增強(qiáng)子能夠在三維空間中作用于距離自身數(shù)十甚至上百Kb堿基的靶啟動子并調(diào)控相關(guān)基因的表達(dá)。增強(qiáng)子-啟動子相互作用在組織特異性基因表達(dá)調(diào)控中起關(guān)鍵作用并可能導(dǎo)致人類相關(guān)疾病的發(fā)生。近年來,大量高通量染色體構(gòu)象捕獲技術(shù)的發(fā)展使人們深入研究這些相互作用成為

2、可能,比如:染色體構(gòu)象捕獲(3C),4C(circular3C),5C(3C-carboncopy),Hi-C(3C variant)和ChIA-PET。與此同時,隨著各種高通量測序技術(shù)的發(fā)展,各個實(shí)驗(yàn)平臺產(chǎn)生了大量基因組信號的深測序文件,這些組學(xué)數(shù)據(jù)使人們在不同的基因組范圍內(nèi)研究遠(yuǎn)程相互作用和不同類基因組信號之間的調(diào)控關(guān)系成為可能。
  本文開發(fā)了新的計算方法并用來識別人類四個細(xì)胞系GM12878,H1-hESC,HeLa-S3

3、和K562中遠(yuǎn)程增強(qiáng)子-啟動子相互作用。我們不僅發(fā)現(xiàn)了許多潛在的影響遠(yuǎn)程互作用識別的重要基因組信號,還分析了它們的位置,分布,關(guān)聯(lián)等屬性。最后,我們通過多種模型研究了組蛋白修飾,轉(zhuǎn)錄因子,增強(qiáng)子RNA,DNA甲基化等多種基因組信號與遠(yuǎn)端增強(qiáng)子靶基因的表達(dá)調(diào)控關(guān)系,并在遠(yuǎn)端增強(qiáng)子調(diào)控靶基因的機(jī)制中發(fā)現(xiàn)了組蛋白修飾,轉(zhuǎn)錄因子等不同類基因組信號對應(yīng)不同的調(diào)控特點(diǎn)。論文主要的研究內(nèi)容概括如下:
  一、基于前人構(gòu)建的5C技術(shù)數(shù)據(jù)庫,我們從

4、不同類別的信號中提取增強(qiáng)子,啟動子,loop區(qū)域的對應(yīng)特征,比如轉(zhuǎn)錄因子,組蛋白修飾,DNA甲基化,增強(qiáng)子RNA,核小體位置,染色質(zhì)狀態(tài),拓?fù)潢P(guān)聯(lián)域等等。然后組合上述特征,提出BRCFS特征選擇方法和隨機(jī)森林分類器在人類四個細(xì)胞系中預(yù)測遠(yuǎn)程增強(qiáng)子-啟動子相互作用。和Roy等的結(jié)果比較,我們的10折交叉檢驗(yàn)AUPR精度提高了11%-16%,獨(dú)立檢驗(yàn)的AUPR精度提高了4%-8%。通過分析識別中的特征重要性,我們發(fā)現(xiàn)了很多潛在特征的重要作用

5、,比如:增強(qiáng)子RNA,核小體位置等。并且我們發(fā)現(xiàn)loop區(qū)域的特征對遠(yuǎn)程互作用的識別起著很大的作用;另外,不同類信號對于遠(yuǎn)程互作用的識別具有調(diào)控區(qū)域特異性和細(xì)胞系特異性。最后我們發(fā)現(xiàn)這些重要的特征在正負(fù)集樣本中有很大的分布差異。
  二、考慮到遠(yuǎn)程增強(qiáng)子-啟動子相互作用受到不同基因組信號,序列元件以及DNA空間結(jié)構(gòu)等多方面協(xié)同作用;我們整合轉(zhuǎn)錄因子,組蛋白修飾,DNA甲基化,增強(qiáng)子RNA,核小體位置,DNA結(jié)構(gòu)屬性,轉(zhuǎn)錄因子結(jié)合模

6、體等信號特征,開發(fā)了一種更加高效的方法去預(yù)測增強(qiáng)子-啟動子相互作用?;谠鰪?qiáng)子,啟動子,loop區(qū)域的組合特征,我們使用隨機(jī)森林和梯度提升算法在人類細(xì)胞系中對增強(qiáng)子-啟動子相互作用進(jìn)行了有效的預(yù)測。基于同樣的數(shù)據(jù)庫,與Roy等的結(jié)果比較,我們在同一個細(xì)胞系中10折交叉檢驗(yàn)結(jié)果提高了15%-24%;在新的細(xì)胞系中獨(dú)立檢驗(yàn)的結(jié)果提高了9%-14%。期間,我們綜合學(xué)習(xí)了不同類型重要特征的貢獻(xiàn)特點(diǎn),并進(jìn)一步發(fā)現(xiàn)了DNA結(jié)構(gòu)屬性,轉(zhuǎn)錄因子結(jié)合模體

7、對于遠(yuǎn)程相互作用識別的重要貢獻(xiàn)。我們對重要的基因組信號特征做了偏相關(guān)網(wǎng)絡(luò)模型分析,并發(fā)現(xiàn)了它們之間重要的關(guān)聯(lián)屬性。
  三、在人類四個細(xì)胞系中,我們使用多種回歸模型研究了增強(qiáng)子靶基因表達(dá)水平與不同基因組信號的關(guān)系,這些信號包括11種組蛋白修飾,大于120種轉(zhuǎn)錄因子,染色質(zhì)可及性,增強(qiáng)子RNA,DNA甲基化和核小體位置。通過結(jié)果分析,我們發(fā)現(xiàn)基因表達(dá)的預(yù)測值和觀測值之間有很強(qiáng)的關(guān)聯(lián)性。然而,有增強(qiáng)子調(diào)控的基因樣本集的關(guān)聯(lián)系數(shù)比無調(diào)控

8、的基因樣本集要高很多,說明遠(yuǎn)程增強(qiáng)子會協(xié)同多類基因組信號促進(jìn)相關(guān)基因的表達(dá)。
  四、通過分析不同信號對遠(yuǎn)端增強(qiáng)子靶基因表達(dá)水平的貢獻(xiàn)能力,我們發(fā)現(xiàn)遠(yuǎn)端增強(qiáng)子調(diào)控的基因中,轉(zhuǎn)錄因子在增強(qiáng)子和啟動子區(qū)域?qū)虮磉_(dá)水平具有較強(qiáng)的影響;而組蛋白修飾在啟動子和loop調(diào)控區(qū)域?qū)虮磉_(dá)水平具有較強(qiáng)的影響。對比同一個細(xì)胞系正負(fù)數(shù)據(jù)集中不同信號特征的重要性分值變化,我們發(fā)現(xiàn)很多組蛋白修飾和部分特異性的轉(zhuǎn)錄因子發(fā)生了很大的變化,說明這些特征協(xié)同

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論