基于數(shù)據(jù)挖掘技術(shù)的亞細(xì)胞定位點(diǎn)預(yù)測算法研究.pdf_第1頁
已閱讀1頁,還剩77頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、生物信息學(xué)研究表明蛋白質(zhì)只有轉(zhuǎn)運(yùn)到正確的部位才能參與細(xì)胞的各種生命活動,如果定位發(fā)生偏差,將會對細(xì)胞功能甚至生命產(chǎn)生重大影響。另外,蛋白質(zhì)在細(xì)胞里不是靜止不動的,它們在細(xì)胞里常常通過在個亞細(xì)胞環(huán)境里運(yùn)動發(fā)揮作用。了解蛋白質(zhì)的亞細(xì)胞定位信息,可以為我們推斷蛋白質(zhì)的生物學(xué)功能提供必要的幫助,同時對蛋白質(zhì)的其他研究如相互作用、進(jìn)化等也能提供必要的信息。反過來,對同一亞細(xì)胞區(qū)域的蛋白質(zhì)功能的研究也有利于更為深刻的理解該亞細(xì)胞結(jié)構(gòu)。蛋白質(zhì)亞細(xì)胞定

2、位信息的日漸重要,傳統(tǒng)的亞細(xì)胞實(shí)驗(yàn)技術(shù)雖然能提供了比較精確的亞細(xì)胞定位數(shù)據(jù),但這些技術(shù)多是昂貴、耗時的,并且重復(fù)性比較差。近年來,生物信息學(xué)在這方面開展了廣泛的研究并且取得一系列很有意義的成果,數(shù)據(jù)庫的構(gòu)建和亞細(xì)胞定位分析及預(yù)測加速了蛋白質(zhì)結(jié)構(gòu)和功能的研究。而蛋白質(zhì)的亞細(xì)胞定位是蛋白質(zhì)的一個關(guān)鍵功能特征。對于日漸增長的亞細(xì)胞數(shù)據(jù),數(shù)據(jù)的分析顯得越來越重要,從中找到亞細(xì)胞定位的生物學(xué)規(guī)律并確定蛋白質(zhì)功能才是我們真正關(guān)心的問題。因此,尋找一

3、種快速而準(zhǔn)確的方法來預(yù)測蛋白質(zhì)亞細(xì)胞成為人們研究的熱點(diǎn)問題,這也是論文研究的主要內(nèi)容。 分析和亞細(xì)胞定位相關(guān)的蛋白質(zhì)序列特征可以為計算預(yù)測提供相關(guān)特征信息,是亞細(xì)胞定位預(yù)測的基礎(chǔ)。利用這一基本原理,論文設(shè)計了一種基于融合算法的亞細(xì)胞定位點(diǎn)預(yù)測的方法。首先,建立數(shù)據(jù)集,抽取出一個高質(zhì)量的亞細(xì)胞定位數(shù)據(jù)集并分為訓(xùn)練集和測試集;其次,從這些蛋白質(zhì)數(shù)據(jù)中抽取出特征信息向量;然后,采用本文提出的基于融合思想的亞細(xì)胞定位點(diǎn)預(yù)測方法,綜合利用

4、前面的特征信息向量作出預(yù)測;最后,用檢驗(yàn)數(shù)據(jù)集對預(yù)測結(jié)果進(jìn)行評價。 這里需要解決兩個關(guān)鍵的問題:一是如何有效的表征蛋白質(zhì)特征;二是如何有效地進(jìn)行亞細(xì)胞定位點(diǎn)的預(yù)測,特別是多定位的情況。論文對以上兩個問題進(jìn)行了較為深入的研究。 對于第一個問題,論文對氨基酸組成特征信息,氨基酸之間的物理化學(xué)特性,Gene Ontology,模體(motif)等做了詳細(xì)分析,力圖找到有效的表征特征量。 第二個問題是論文的核心內(nèi)容,論文

5、研究的是亞細(xì)胞定位點(diǎn)預(yù)測。由于蛋白質(zhì)功能的復(fù)雜性,亞細(xì)胞定位點(diǎn)的預(yù)測一直是一個難點(diǎn),利用機(jī)器學(xué)習(xí)的方法來提高預(yù)測準(zhǔn)確率便成為一個研究熱點(diǎn)。本文在利用機(jī)器學(xué)習(xí)方法預(yù)測亞細(xì)胞定位點(diǎn)領(lǐng)域做了三方面的工作。其一,建立了包含多細(xì)胞位置信息的人類細(xì)胞數(shù)據(jù)集;其二,本文提出了基于改進(jìn)的Dempster-Shafer融合算法的亞細(xì)胞定位點(diǎn)預(yù)測算法,利用多種信息源表征特征,通過融合上述特征,得到更精確的預(yù)測結(jié)果;其三,本文對同時存在多個細(xì)胞位置的有趣現(xiàn)象

6、做了研究,以往的亞細(xì)胞定位點(diǎn)預(yù)測沒有包含多定位點(diǎn)情況。本文所闡述的方法因其將多重特征綜合考慮,能夠挖掘出多亞細(xì)胞位置信息,能夠預(yù)測蛋白所屬于的多個亞細(xì)胞位置。 論文的主要創(chuàng)新點(diǎn)有以下幾點(diǎn): 1.在最新發(fā)布的Swiss-Prot數(shù)據(jù)庫的基礎(chǔ)上,建立了包含多細(xì)胞位置信息的人類細(xì)胞數(shù)據(jù)集,且該數(shù)據(jù)集是嚴(yán)格的。 2.本文采用了最新發(fā)展起來的(Gene Ontology)GO數(shù)據(jù)庫離散模型來表達(dá)一蛋白序列,通過本文大量的試

7、驗(yàn)證明,GO離散模型是比AA、PseAA更高一層次的表達(dá),因此能大大提高蛋白亞細(xì)胞位置預(yù)測的精度; 3. 本文提出了基于改進(jìn)的Dempster-Shafer融合算法的亞細(xì)胞定位點(diǎn)預(yù)測算法,利用全局和局部偽氨基酸組成、GO離散模型以及motif四種信息源表征特征,通過融合上述特征,得到更精確的預(yù)測結(jié)果。 4. 本文對同時存在多個細(xì)胞位置的有趣現(xiàn)象做了研究,本文所闡述的方法因其將多重特征綜合考慮,能夠挖掘出多亞細(xì)胞位置信息,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論