基于數(shù)據(jù)挖掘技術(shù)的亞細(xì)胞定位點(diǎn)預(yù)測算法研究.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-10 格式：pdf 頁數(shù)：78 大?。?87.81KB 人氣指數(shù)：12 舉報 版權(quán)申訴

基于數(shù)據(jù)挖掘技術(shù)的亞細(xì)胞定位點(diǎn)預(yù)測算法研究.pdf_第1頁

已閱讀1頁，還剩77頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、生物信息學(xué)研究表明蛋白質(zhì)只有轉(zhuǎn)運(yùn)到正確的部位才能參與細(xì)胞的各種生命活動，如果定位發(fā)生偏差，將會對細(xì)胞功能甚至生命產(chǎn)生重大影響。另外，蛋白質(zhì)在細(xì)胞里不是靜止不動的，它們在細(xì)胞里常常通過在個亞細(xì)胞環(huán)境里運(yùn)動發(fā)揮作用。了解蛋白質(zhì)的亞細(xì)胞定位信息，可以為我們推斷蛋白質(zhì)的生物學(xué)功能提供必要的幫助，同時對蛋白質(zhì)的其他研究如相互作用、進(jìn)化等也能提供必要的信息。反過來，對同一亞細(xì)胞區(qū)域的蛋白質(zhì)功能的研究也有利于更為深刻的理解該亞細(xì)胞結(jié)構(gòu)。蛋白質(zhì)亞細(xì)胞定

2、位信息的日漸重要，傳統(tǒng)的亞細(xì)胞實(shí)驗(yàn)技術(shù)雖然能提供了比較精確的亞細(xì)胞定位數(shù)據(jù)，但這些技術(shù)多是昂貴、耗時的，并且重復(fù)性比較差。近年來，生物信息學(xué)在這方面開展了廣泛的研究并且取得一系列很有意義的成果，數(shù)據(jù)庫的構(gòu)建和亞細(xì)胞定位分析及預(yù)測加速了蛋白質(zhì)結(jié)構(gòu)和功能的研究。而蛋白質(zhì)的亞細(xì)胞定位是蛋白質(zhì)的一個關(guān)鍵功能特征。對于日漸增長的亞細(xì)胞數(shù)據(jù)，數(shù)據(jù)的分析顯得越來越重要，從中找到亞細(xì)胞定位的生物學(xué)規(guī)律并確定蛋白質(zhì)功能才是我們真正關(guān)心的問題。因此，尋找一

3、種快速而準(zhǔn)確的方法來預(yù)測蛋白質(zhì)亞細(xì)胞成為人們研究的熱點(diǎn)問題，這也是論文研究的主要內(nèi)容。分析和亞細(xì)胞定位相關(guān)的蛋白質(zhì)序列特征可以為計算預(yù)測提供相關(guān)特征信息，是亞細(xì)胞定位預(yù)測的基礎(chǔ)。利用這一基本原理，論文設(shè)計了一種基于融合算法的亞細(xì)胞定位點(diǎn)預(yù)測的方法。首先，建立數(shù)據(jù)集，抽取出一個高質(zhì)量的亞細(xì)胞定位數(shù)據(jù)集并分為訓(xùn)練集和測試集；其次，從這些蛋白質(zhì)數(shù)據(jù)中抽取出特征信息向量；然后，采用本文提出的基于融合思想的亞細(xì)胞定位點(diǎn)預(yù)測方法，綜合利用

4、前面的特征信息向量作出預(yù)測；最后，用檢驗(yàn)數(shù)據(jù)集對預(yù)測結(jié)果進(jìn)行評價。這里需要解決兩個關(guān)鍵的問題：一是如何有效的表征蛋白質(zhì)特征；二是如何有效地進(jìn)行亞細(xì)胞定位點(diǎn)的預(yù)測，特別是多定位的情況。論文對以上兩個問題進(jìn)行了較為深入的研究。對于第一個問題，論文對氨基酸組成特征信息，氨基酸之間的物理化學(xué)特性，Gene Ontology，模體（motif）等做了詳細(xì)分析，力圖找到有效的表征特征量。第二個問題是論文的核心內(nèi)容，論文

5、研究的是亞細(xì)胞定位點(diǎn)預(yù)測。由于蛋白質(zhì)功能的復(fù)雜性，亞細(xì)胞定位點(diǎn)的預(yù)測一直是一個難點(diǎn)，利用機(jī)器學(xué)習(xí)的方法來提高預(yù)測準(zhǔn)確率便成為一個研究熱點(diǎn)。本文在利用機(jī)器學(xué)習(xí)方法預(yù)測亞細(xì)胞定位點(diǎn)領(lǐng)域做了三方面的工作。其一，建立了包含多細(xì)胞位置信息的人類細(xì)胞數(shù)據(jù)集；其二，本文提出了基于改進(jìn)的Dempster-Shafer融合算法的亞細(xì)胞定位點(diǎn)預(yù)測算法，利用多種信息源表征特征，通過融合上述特征，得到更精確的預(yù)測結(jié)果；其三，本文對同時存在多個細(xì)胞位置的有趣現(xiàn)象

6、做了研究，以往的亞細(xì)胞定位點(diǎn)預(yù)測沒有包含多定位點(diǎn)情況。本文所闡述的方法因其將多重特征綜合考慮，能夠挖掘出多亞細(xì)胞位置信息，能夠預(yù)測蛋白所屬于的多個亞細(xì)胞位置。論文的主要創(chuàng)新點(diǎn)有以下幾點(diǎn)： 1.在最新發(fā)布的Swiss-Prot數(shù)據(jù)庫的基礎(chǔ)上，建立了包含多細(xì)胞位置信息的人類細(xì)胞數(shù)據(jù)集，且該數(shù)據(jù)集是嚴(yán)格的。 2.本文采用了最新發(fā)展起來的（Gene Ontology）GO數(shù)據(jù)庫離散模型來表達(dá)一蛋白序列，通過本文大量的試

7、驗(yàn)證明，GO離散模型是比AA、PseAA更高一層次的表達(dá)，因此能大大提高蛋白亞細(xì)胞位置預(yù)測的精度； 3. 本文提出了基于改進(jìn)的Dempster-Shafer融合算法的亞細(xì)胞定位點(diǎn)預(yù)測算法，利用全局和局部偽氨基酸組成、GO離散模型以及motif四種信息源表征特征，通過融合上述特征，得到更精確的預(yù)測結(jié)果。 4. 本文對同時存在多個細(xì)胞位置的有趣現(xiàn)象做了研究，本文所闡述的方法因其將多重特征綜合考慮，能夠挖掘出多亞細(xì)胞位置信息，

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于數(shù)據(jù)挖掘技術(shù)的亞細(xì)胞定位點(diǎn)預(yù)測算法研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

基于數(shù)據(jù)挖掘技術(shù)的亞細(xì)胞定位點(diǎn)預(yù)測算法研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費(fèi)下載