人類RNA聚合酶Ⅱ啟動子識別研究.pdf_第1頁
已閱讀1頁,還剩66頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、啟動子的識別是基因識別的重要組成部分。對啟動子區(qū)的認(rèn)識,不僅有助于實(shí)驗(yàn)室分析研究,而且還可以為人類認(rèn)識全基因組功能、基因表達(dá)調(diào)控機(jī)制以及人類疾病與啟動子多態(tài)性或突變的關(guān)系提供很大的幫助。 本文旨在對人類RNA聚合酶(POL)II啟動子數(shù)據(jù)進(jìn)行識別分類并提高識別的準(zhǔn)確率。我們將創(chuàng)新的編碼方法應(yīng)用在人類啟動子序列編碼中,建立并使用合適的共識模型,使用支持向量機(jī)(SVM)的方法對啟動子數(shù)據(jù)進(jìn)行分類并提高了啟動子識別的準(zhǔn)確率。

2、 首先,我們從真核生物啟動子數(shù)據(jù)庫(EPD)以及非啟動子數(shù)據(jù)庫中得到用于分類研究的DNA啟動子序列數(shù)據(jù)及非啟動子序列數(shù)據(jù)。正、負(fù)數(shù)據(jù)集均分別被分成5份和10份,用于5重(5-fold)及10重(10-fold)交叉驗(yàn)證。另外,我們還從轉(zhuǎn)錄起始位點(diǎn)數(shù)據(jù)庫(DBTSS)中得到了由實(shí)驗(yàn)得出的人類染色體啟動子數(shù)據(jù),準(zhǔn)備用于后續(xù)的研究。 然后,在對數(shù)據(jù)進(jìn)行處理后(包括保證數(shù)據(jù)的非冗余性等),對堿基數(shù)據(jù)進(jìn)行編碼、選擇合適的參數(shù)及編碼方法

3、。這是本研究的重點(diǎn)和難點(diǎn)。根據(jù)采用編碼方式的不同,將之分為三步。 第一步,本文采用了基于知識的統(tǒng)計(jì)編碼方法,并將此方法進(jìn)一步擴(kuò)展成六種子編碼方式,分別是:單堿基統(tǒng)計(jì)特征編碼、相鄰雙堿基統(tǒng)計(jì)特征編碼、隔一位的雙堿基統(tǒng)計(jì)特征編碼、隔兩位的雙堿基統(tǒng)計(jì)特征編碼、隔三位的雙堿基統(tǒng)計(jì)特征編碼以及相鄰三堿基統(tǒng)計(jì)特征編碼。編碼后在SVM中進(jìn)行啟動子識別,使用10-fold交叉驗(yàn)證的準(zhǔn)確率達(dá)到了89.68%,靈敏性在86.24%~90.11%,

4、特異性在85.91%~98.35%,與其他利用SVM進(jìn)行啟動子識別的工具相比,均有5%左右的提高。 第二步,本文采用了CpG編碼和五聯(lián)體(Pentamers)編碼,從不同的角度對人類RNA POL II啟動子序列進(jìn)行編碼,提取變量信息,找出預(yù)報結(jié)果最佳及搭配最合理的編碼方式用于后面的研究。 第三步,本文還嘗試了一種新的編碼方法——模式字典(Pattem Dictionary)的編碼方法(由本實(shí)驗(yàn)室開發(fā)),并且針對啟動

5、子數(shù)據(jù)的特點(diǎn),將ATCG四堿基兩兩結(jié)合,擴(kuò)展成十六種字符進(jìn)行編碼,以增加數(shù)據(jù)的特征變量。 再次,基于上述編碼方法的識別結(jié)果,根據(jù)編碼方式的不同、樣本選擇的不同、核函數(shù)選擇的不同等等,我們建立出不同類型成員子模型的共識模型,并用雙層SVM進(jìn)行識別分析。由于共識模型考慮了各子模型的獨(dú)立性和模型之間的差異性,發(fā)揮了各模型之間的互補(bǔ)優(yōu)勢,從而提高了最終的識別準(zhǔn)確率。 最后,我們將優(yōu)秀的識別模型及共識模型的思想應(yīng)用到人類22號

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論