生物序列特征提取新方法的研究.pdf_第1頁
已閱讀1頁,還剩131頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、分析化學(xué)信息學(xué)是分析化學(xué)的一個(gè)重要分支,它是建立在多學(xué)科基礎(chǔ)上的交叉學(xué)科。人類基因組計(jì)劃的完成積累了大量關(guān)于基因序列和蛋白質(zhì)序列數(shù)據(jù),為化學(xué)信息學(xué)的發(fā)展提供了新的機(jī)遇并發(fā)出新的挑戰(zhàn)。本文立足于海量的生物序列數(shù)據(jù)資源,致力于生物序列特征提取新方法的探索,對生物信息學(xué)中的熱點(diǎn)問題進(jìn)行了以下五個(gè)方面的研究: 1.運(yùn)用傅立葉功率譜首次研究了基因中外顯子的周期三行為。結(jié)果表明:大多數(shù)外顯子獨(dú)立存在于基因中時(shí)并不具有周期三行為,而當(dāng)基因被剪

2、切后外顯子連在一起編碼蛋白質(zhì)的時(shí)候才具有周期三行為。并且這種行為特征與外顯子的長度、堿基在密碼子三個(gè)位置上的分布以及氨基酸密碼子的使用偏好均有密切關(guān)系,同時(shí)符合蛋白質(zhì)翻譯次序的外顯子也具有對密碼子使用的偏好性。具有周期三行為的編碼區(qū)更傾向于使用密碼子第三位是G/C的密碼子。密碼子使用的偏好性是蛋白質(zhì)編碼區(qū)所特有的性質(zhì)。這一研究結(jié)果對于提高基因識別的準(zhǔn)確率以及內(nèi)含子功能的研究具有重要意義。 2.將分形理論應(yīng)用于人類基因自相似性研究

3、,運(yùn)用網(wǎng)格維數(shù)刻畫了人類基因編碼區(qū)的分形特征。首次發(fā)現(xiàn)基因中整個(gè)編碼區(qū)的分形維數(shù)小于單個(gè)外顯子的維數(shù),表明整個(gè)編碼序列比單個(gè)外顯子更有序。通過與隨機(jī)序列的對比研究確證了此結(jié)論,并且外顯子的維數(shù)與隨機(jī)序列差不多,表明外顯子更傾向于隨機(jī)分布。結(jié)合傅立葉功率譜和編碼區(qū)的分形特征,我們發(fā)現(xiàn)對于那些具有較多外顯子的基因,編碼序列包含了較少的信息,因此具有較小的維數(shù),一部分的遺傳信息可能儲(chǔ)存在內(nèi)含子中。對于那些具有較少外顯子的基因,編碼序列包含了更

4、多的遺傳信息,具有更大的復(fù)雜性,因此維數(shù)較大。 本文的研究結(jié)果對于更好的理解基因序列的復(fù)雜性和內(nèi)含子功能的研究具有一定的理論價(jià)值。 3.結(jié)合了小波分析在數(shù)據(jù)挖掘領(lǐng)域的最新研究成果,建立一種生物序列相似性研究的新方法。通過離散小波變換把數(shù)字化的蛋白質(zhì)序列從時(shí)域轉(zhuǎn)化到頻域,設(shè)定閾值分別把各個(gè)頻域信號轉(zhuǎn)化為字符串序列,根據(jù)最大公共子序列定義序列匹配度,并將它作為相似性的測度。綜合不同頻域?qū)哟涡蛄械南嗨贫热婵疾焐镄蛄械南嗨菩?/p>

5、。通過對蛋白質(zhì)序列和基因序列的研究,表明基于離散小波變換的生物序列相似性研究方法不僅能夠考察不同物種同一家族蛋白質(zhì)的相似性情況,而且能夠考察同一物種相同基因家族中不同成員之間的相似性情況。本文的研究結(jié)果為生物序列相似性研究開拓辟了新的研究思路。 4.基于小波包分析提出了一種同源蛋白特征提取的新方法,首次提出將小波包能量作為同源蛋白質(zhì)的特征向量來研究同源蛋白質(zhì)序列的進(jìn)化和變異性。通過對不同物種血紅蛋白α鏈和β鏈的同源性分析表明,血

6、紅蛋白的α比β鏈更具有保守性。結(jié)合兩條鏈的小波包能量譜,結(jié)論顯示:在豬、牛、馬、雞和魚等物種中,豬的血紅蛋白與人的血紅蛋白具有最大的相似性,因此在醫(yī)學(xué)上有望用豬血代替人血來解決血液短缺的問題。對直系同源蛋白和旁系同源蛋白序列的小波包能量譜的研究結(jié)果表明,小波包能量可以作為同源蛋白質(zhì)的特征向量來考察同源序列的遺傳和變異性,尤其是對直系同源蛋白具有較好的適應(yīng)性。由于本方法不需要大量的樣本作為訓(xùn)練集,而且屬于非參數(shù)法,使用簡單方便,對于蛋白質(zhì)

7、的同源研究具有重要理論價(jià)值和實(shí)踐意義。 5.基于小波能量特征向量在蛋白質(zhì)同源性研究中的作用,提出小波能量譜識別蛋白質(zhì)活性位點(diǎn)的新方法。運(yùn)用Autosignal軟件選擇Morlet復(fù)小波對數(shù)字化的蛋白質(zhì)序列進(jìn)行連續(xù)小波變換,小波能量譜可用于蛋白質(zhì)活性位點(diǎn)的識別。同源蛋白質(zhì)序列的能量最大值通常分布于相同的頻率處,小波能量比較集中的區(qū)域往往與蛋白質(zhì)序列的保守位點(diǎn)相對應(yīng),它們通常都是蛋白質(zhì)的活性位點(diǎn)。本文的研究結(jié)果為對蛋白質(zhì)功能的研究開

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論