版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、啟動子的識別是基因識別的重要組成部分。對啟動子區(qū)的認(rèn)識,不僅有助于實(shí)驗(yàn)室分析研究,而且還可以為人類認(rèn)識全基因組功能、基因表達(dá)調(diào)控機(jī)制以及人類疾病與啟動子多態(tài)性或突變的關(guān)系提供很大的幫助。 本文旨在對人類RNA聚合酶(POL)II啟動子數(shù)據(jù)進(jìn)行識別分類并提高識別的準(zhǔn)確率。我們將創(chuàng)新的編碼方法應(yīng)用在人類啟動子序列編碼中,建立并使用合適的共識模型,使用支持向量機(jī)(SVM)的方法對啟動子數(shù)據(jù)進(jìn)行分類并提高了啟動子識別的準(zhǔn)確率。
2、 首先,我們從真核生物啟動子數(shù)據(jù)庫(EPD)以及非啟動子數(shù)據(jù)庫中得到用于分類研究的DNA啟動子序列數(shù)據(jù)及非啟動子序列數(shù)據(jù)。正、負(fù)數(shù)據(jù)集均分別被分成5份和10份,用于5重(5-fold)及10重(10-fold)交叉驗(yàn)證。另外,我們還從轉(zhuǎn)錄起始位點(diǎn)數(shù)據(jù)庫(DBTSS)中得到了由實(shí)驗(yàn)得出的人類染色體啟動子數(shù)據(jù),準(zhǔn)備用于后續(xù)的研究。 然后,在對數(shù)據(jù)進(jìn)行處理后(包括保證數(shù)據(jù)的非冗余性等),對堿基數(shù)據(jù)進(jìn)行編碼、選擇合適的參數(shù)及編碼方法
3、。這是本研究的重點(diǎn)和難點(diǎn)。根據(jù)采用編碼方式的不同,將之分為三步。 第一步,本文采用了基于知識的統(tǒng)計(jì)編碼方法,并將此方法進(jìn)一步擴(kuò)展成六種子編碼方式,分別是:單堿基統(tǒng)計(jì)特征編碼、相鄰雙堿基統(tǒng)計(jì)特征編碼、隔一位的雙堿基統(tǒng)計(jì)特征編碼、隔兩位的雙堿基統(tǒng)計(jì)特征編碼、隔三位的雙堿基統(tǒng)計(jì)特征編碼以及相鄰三堿基統(tǒng)計(jì)特征編碼。編碼后在SVM中進(jìn)行啟動子識別,使用10-fold交叉驗(yàn)證的準(zhǔn)確率達(dá)到了89.68%,靈敏性在86.24%~90.11%,
4、特異性在85.91%~98.35%,與其他利用SVM進(jìn)行啟動子識別的工具相比,均有5%左右的提高。 第二步,本文采用了CpG編碼和五聯(lián)體(Pentamers)編碼,從不同的角度對人類RNA POL II啟動子序列進(jìn)行編碼,提取變量信息,找出預(yù)報結(jié)果最佳及搭配最合理的編碼方式用于后面的研究。 第三步,本文還嘗試了一種新的編碼方法——模式字典(Pattem Dictionary)的編碼方法(由本實(shí)驗(yàn)室開發(fā)),并且針對啟動
5、子數(shù)據(jù)的特點(diǎn),將ATCG四堿基兩兩結(jié)合,擴(kuò)展成十六種字符進(jìn)行編碼,以增加數(shù)據(jù)的特征變量。 再次,基于上述編碼方法的識別結(jié)果,根據(jù)編碼方式的不同、樣本選擇的不同、核函數(shù)選擇的不同等等,我們建立出不同類型成員子模型的共識模型,并用雙層SVM進(jìn)行識別分析。由于共識模型考慮了各子模型的獨(dú)立性和模型之間的差異性,發(fā)揮了各模型之間的互補(bǔ)優(yōu)勢,從而提高了最終的識別準(zhǔn)確率。 最后,我們將優(yōu)秀的識別模型及共識模型的思想應(yīng)用到人類22號
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 玉米RNA聚合酶Ⅲ識別的啟動子活性鑒定與Waxy1基因編輯.pdf
- 人類啟動子識別算法研究.pdf
- 食管癌組織中DAN聚合酶β啟動子突變的初步研究.pdf
- 人食管癌組織DNA聚合酶β基因啟動子突變的研究.pdf
- 馬Ⅰ型RNA聚合酶啟動子在流感研究中的應(yīng)用及馬IFITM蛋白抗流感病毒的研究.pdf
- 家蠶二分濃核病毒DNA聚合酶啟動子P97的相關(guān)研究.pdf
- 植物啟動子識別算法研究.pdf
- 真核啟動子識別算法研究
- 真核啟動子識別算法研究.pdf
- 豬Myostatin基因RNA干擾及啟動子研究.pdf
- 人類細(xì)胞系中遠(yuǎn)程增強(qiáng)子--啟動子相互作用的識別研究.pdf
- 人類腫瘤特異性啟動子計(jì)算機(jī)識別技術(shù)研究.pdf
- 食管癌細(xì)胞EC-1DNA聚合酶β啟動子堿基突變對其轉(zhuǎn)錄活性的影響.pdf
- 人rna聚合酶??贵wrnapⅲab酶聯(lián)免疫分析
- 不同啟動子RNA干擾載體構(gòu)建及驗(yàn)證.pdf
- 34602.基于主成分分析法的人類啟動子識別
- 細(xì)絲蛋白A介導(dǎo)的RNA聚合酶Ⅲ基因轉(zhuǎn)錄機(jī)制的研究.pdf
- 實(shí)時熒光定量聚合酶鏈反應(yīng)檢測人肺癌P16抑癌基因啟動子異常甲基化.pdf
- RNA聚合酶I介導(dǎo)轉(zhuǎn)錄的TBSV病毒表達(dá)載體研究.pdf
- 基于新一代測序技術(shù)的選擇性啟動子和雙向啟動子識別研究.pdf
評論
0/150
提交評論