運(yùn)用數(shù)字信號(hào)處理技術(shù)對(duì)蛋白質(zhì)進(jìn)行亞細(xì)胞定位預(yù)測(cè).pdf_第1頁(yè)
已閱讀1頁(yè),還剩121頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、蛋白質(zhì)通過某種機(jī)制進(jìn)入細(xì)胞器或亞細(xì)胞器,這個(gè)過程為完成它們各自特殊的功能提供了一個(gè)適合的環(huán)境。因此,蛋白質(zhì)的功能與其亞細(xì)胞定位之間有著密切的聯(lián)系,確定一個(gè)蛋白質(zhì)的亞細(xì)胞定位對(duì)于研究該蛋白的功能往往能夠提供重要的線索。盡管,蛋白質(zhì)的亞細(xì)胞定位可以通過實(shí)驗(yàn)的方法獲得,然而這樣的做法不論是在金錢還是時(shí)間上,耗費(fèi)都很高,尤其是過于耗時(shí)的缺點(diǎn),使得實(shí)驗(yàn)測(cè)定蛋白質(zhì)的亞細(xì)胞定位已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足后基因組時(shí)代對(duì)于信息提取的需求。隨著生物技術(shù)尤其是大規(guī)模測(cè)

2、序技術(shù)的革新,和人類基因組計(jì)劃以及越來(lái)越多物種的全基因組測(cè)序完成,生命科學(xué)研究所產(chǎn)出的數(shù)據(jù)正在以前所未有的速度膨脹著,全球的生物數(shù)據(jù)庫(kù)中數(shù)據(jù)量翻番所需要的時(shí)間已經(jīng)越來(lái)越短。面對(duì)這樣海量且仍在高速增加的數(shù)據(jù),我們迫切的需要開發(fā)出一個(gè)能夠高效、準(zhǔn)確地自動(dòng)預(yù)測(cè)蛋白質(zhì)的亞細(xì)胞定位的系統(tǒng)。這不僅能提高蛋白質(zhì)的亞細(xì)胞定位研究的效率,為進(jìn)一步的實(shí)驗(yàn)研究提供借鑒和指導(dǎo),同時(shí)對(duì)于蛋白質(zhì)的功能預(yù)測(cè)和研究也具有重要的意義。 在我們搜集數(shù)據(jù)的過程中,

3、具有明確且單一的亞細(xì)胞定位信息和完整序列的蛋白質(zhì)條目是我們搜集實(shí)驗(yàn)數(shù)據(jù)的基本條件。為了保證數(shù)據(jù)的可靠性、權(quán)威性、實(shí)時(shí)性和盡可能的完備性,我們從SWISS-PROT(http://au.expasv.orq/sprot/)數(shù)據(jù)庫(kù)下載了最新版本42.8的全部蛋白質(zhì)數(shù)據(jù)。從這些數(shù)據(jù)中,我們篩選出滿足基本條件且分類后樣本數(shù)達(dá)到統(tǒng)計(jì)意義的蛋白質(zhì)共20,172個(gè),它們分別屬于以下10個(gè)不同的亞細(xì)胞定位類別:(1)細(xì)胞核、(2)細(xì)胞質(zhì)、(3)線粒體、

4、(4)胞外、(5)過氧化物酶體、(6)內(nèi)質(zhì)網(wǎng)、(7)溶酶體、(8)膜蛋白、(9)葉綠體、(10)外周胞質(zhì)。為了方便數(shù)據(jù)的管理、訪問和和網(wǎng)絡(luò)查詢、共享,我們基于這些蛋白質(zhì)亞細(xì)胞定位數(shù)據(jù)構(gòu)建了MySQL數(shù)據(jù)庫(kù),并提供了網(wǎng)絡(luò)查詢的接口。 就蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)研究而言,基于氨基酸組分的預(yù)測(cè)方法是較傳統(tǒng)的方法之一。氨基酸組分是指自然界常見的20種氨基酸在蛋白質(zhì)序列中各自所占的比例,這20個(gè)比例值的總合稱為蛋白質(zhì)的氨基酸組分。該方法被眾

5、多研究者廣泛的采用和認(rèn)可,并且獲得了不錯(cuò)的預(yù)測(cè)效果。然而,基于氨基酸組分的預(yù)測(cè)方法存在著固有的缺陷,就是它只考察各種氨基酸在序列中出現(xiàn)的頻率,而忽視了它們?cè)谛蛄兄械呐帕蟹绞?。兩個(gè)蛋白質(zhì)序列,若20種氨基酸的出現(xiàn)頻率相等,而排列順序不相同,則在氨基酸組分中是無(wú)法表現(xiàn)出差別的,也就是僅憑氨基酸組分來(lái)觀察這樣兩條序列是完全相同的。這對(duì)于排列組合非常多變的蛋白質(zhì)序列來(lái)說,顯然是一個(gè)粗略的近似模型。為了進(jìn)一步完善這個(gè)模型,我們從邏輯思維的角度考慮

6、,認(rèn)為合理的加入氨基酸的排列順序的信息,對(duì)于蛋白質(zhì)的亞細(xì)胞定位預(yù)測(cè)應(yīng)該是有幫助的。 鑒于蛋白質(zhì)序列的組成單位——氨基酸的種類多達(dá)20種,且序列的長(zhǎng)度也懸殊很大,使得理論上蛋白質(zhì)序列的排列組合數(shù)非常巨大。為了有效的將蛋白質(zhì)序列的排列順序特點(diǎn)放在相同尺度下進(jìn)行分析和比較,我們采用了工程學(xué)上發(fā)展較為成熟的數(shù)字信號(hào)處理技術(shù)。在運(yùn)用數(shù)字信號(hào)處理技術(shù)之前,我們借助與蛋白質(zhì)的亞細(xì)胞定位有潛在聯(lián)系的氨基酸的重要化學(xué)特性——疏水值,將氨基酸序列

7、轉(zhuǎn)換成相應(yīng)的數(shù)字信號(hào)。通過離散傅立葉變換,原本時(shí)間域內(nèi)的數(shù)字信號(hào)被轉(zhuǎn)換到頻率域內(nèi)進(jìn)行分析。在頻率域中,一個(gè)數(shù)字信號(hào)被表示成一系列不同頻率諧波的線性組合,而信號(hào)的傅立葉變換就是該線性組合中的系數(shù)。由于信號(hào)的波形輪廓主要由其低頻成分決定,因此,我們提取每個(gè)數(shù)字信號(hào)振幅譜中的前40個(gè)值作為信號(hào)的頻域特征值,來(lái)描述每個(gè)數(shù)字信號(hào)所對(duì)應(yīng)的蛋白質(zhì)序列在氨基酸排列順序上的特點(diǎn)。頻域特征值與氨基酸組分的有機(jī)結(jié)合構(gòu)成了我們描述蛋白質(zhì)序列的數(shù)學(xué)模型——維數(shù)為

8、60的空間特征向量。不同的蛋白質(zhì)序列就對(duì)應(yīng)60維空間中不同的點(diǎn)。 對(duì)蛋白質(zhì)的亞細(xì)胞定位進(jìn)行預(yù)測(cè)就等價(jià)于對(duì)蛋白質(zhì)對(duì)應(yīng)的特征向量進(jìn)行識(shí)別和分類。本文中共采用了三種模式識(shí)別的最小決策函數(shù)分類器對(duì)特征向量進(jìn)行分類預(yù)測(cè),這三種分類器分別為ProtLock分類器、馬氏距離分類器和CovariantDiscrimination分類器,它們都是曾被應(yīng)用于蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)研究的典型模式識(shí)別分類器,具有各自不同的理論基礎(chǔ)。其中,Covaria

9、ntDiscrimination(CD)分類器在各類別樣本量相差較大,各類別內(nèi)的樣本具有不同的分布特征且特征值之間有耦合存在的樣本空間上較為適用,常常能夠得到較好的預(yù)測(cè)結(jié)果。 為了客觀和全面地檢測(cè)我們所建立的預(yù)測(cè)系統(tǒng)的預(yù)測(cè)效率,以及加入表征序列排列順序特點(diǎn)的頻域特征值以后對(duì)于預(yù)測(cè)結(jié)果的改善,我們采用了三種檢測(cè)方法來(lái)分別考察在蛋白質(zhì)的氨基酸組分所構(gòu)成的20維特征空間以及在氨基酸組分加頻域特征值所構(gòu)成的60維特征空間上預(yù)測(cè)得到的正

10、確率。首先是自身一致性檢測(cè),運(yùn)用ProtLock分類器,加入頻域特征值前后的預(yù)測(cè)正確率分別為47.9﹪和50.5﹪;運(yùn)用馬氏距離分類器時(shí),加入頻域特征值前后的預(yù)測(cè)正確率分別為36.6﹪和62.8﹪;運(yùn)用CD分類器時(shí),加入頻域特征值前后的預(yù)測(cè)正確率分別為58.8﹪和79.2﹪。對(duì)于獨(dú)立檢測(cè),分別采用上述三種分類器,預(yù)測(cè)正確率在加入頻域特征值前后的變化分別是從48.4﹪到50.4﹪,從46.3﹪到70.4﹪,從54.8﹪到75.8﹪。對(duì)于留

11、一法檢測(cè),同樣采用三種分類器,加入頻域特征值后帶來(lái)的預(yù)測(cè)正確率的變化分別為從47.6﹪到49.8﹪,從36.0﹪到58.5﹪,從57.9﹪到74.3﹪。從檢測(cè)的結(jié)果,我們觀察到,由于在氨基酸組分的基礎(chǔ)上增加了頻域特征值所代表的序列的順序信息,使得不論采用哪一種分類器、通過哪一種檢測(cè)手段,預(yù)測(cè)的正確率都有了不同程度的提高。尤其在采用CD分類器的結(jié)果中,預(yù)測(cè)正確率提高的平均幅度達(dá)到了19.3﹪,并且預(yù)測(cè)正確率的絕對(duì)平均值也達(dá)到了76.4﹪。

12、通過對(duì)這些數(shù)據(jù)的觀察和分析,我們得出兩點(diǎn)主要的結(jié)論: (1)序列排列順序?qū)τ诘鞍踪|(zhì)的亞細(xì)胞定位是有潛在影響的;(2)運(yùn)用數(shù)字信號(hào)處理技術(shù)所提取的頻域特征值在反映序列的排列順序信息方面是有效的。 本文的主要貢獻(xiàn)在于兩個(gè)方面,一是根據(jù)現(xiàn)有的蛋白質(zhì)信息搜集了目前最完備的蛋白質(zhì)亞細(xì)胞定位的數(shù)據(jù),并進(jìn)行篩選、分類和建數(shù)據(jù)庫(kù),提供了數(shù)據(jù)網(wǎng)絡(luò)共享的查詢接口;二是首次運(yùn)用數(shù)字信號(hào)處理技術(shù)對(duì)氨基酸序列進(jìn)行分析,將分析結(jié)果應(yīng)用于蛋白質(zhì)亞

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論