信號處理方法在波譜分析及生物信息學(xué)中的應(yīng)用研究.pdf_第1頁
已閱讀1頁,還剩93頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著方法學(xué)研究的成熟與發(fā)展,信號處理成為了當(dāng)代科學(xué)技術(shù)的重要工具,被廣泛地用于語音、圖像、通信、生物醫(yī)學(xué)等領(lǐng)域。小波變換作為信號處理方法的優(yōu)秀代表,已受到許多化學(xué)家的關(guān)注,大量的波譜分析工作利用小波變換方法,圍繞著化學(xué)信號的去噪,濾波,基線校正,特征提取等內(nèi)容展開,取得了令人滿意的結(jié)果。小波變換的多尺度分辨能力,除了運用于信號解析方面外,還有利于譜圖數(shù)據(jù)的壓縮處理,現(xiàn)今,由于檢測技術(shù)的提高和新型儀器的研制,標準紅外光譜數(shù)據(jù)庫不斷增大,如

2、能有效的對紅外光譜數(shù)據(jù)進行壓縮,于譜圖的存儲及快速檢索均是一項有意義的工作。 本文針對小波變換在紅外光譜數(shù)據(jù)壓縮中遇到的幾個重要問題進行了探討,并嘗試在原先的基礎(chǔ)上,進一步提高壓縮性能(第二章、第三章)。早期的譜圖數(shù)據(jù)壓縮研究,大抵針對紫外可見光譜,在紅外光譜的壓縮方面也僅用到Daubechies小波函數(shù),事實上,不同的小波函數(shù)對譜圖的壓縮能力各不相同,而且譜圖本身的復(fù)雜度也會對壓縮比造成一定的影響。本文作者通過選取4幅代表性的

3、Aldrich凝聚相樣本標準紅外光譜,在預(yù)控重構(gòu)根均方差為0.009的條件下,考察了四類小波函數(shù)(Daubechies小波函數(shù)系、Coiflets小波函數(shù)系、Symlets小波函數(shù)系和雙正交小波函數(shù)系)的壓縮性能。在此基礎(chǔ)上,一種用于二維圖象壓縮的方法——嵌入式零樹小波編碼方法被引入本工作中,該方法在壓縮過程中定義的零樹結(jié)構(gòu),利用了小波分解譜圖后系數(shù)的自相似性,可以忽略非重要的小波系數(shù)而不必保留其位置信息,我們將其改進后,結(jié)合霍夫曼編碼

4、對紅外光譜進行壓縮,使得壓縮結(jié)果較“硬”閾值法提高了68.1[%]。 生物信息學(xué)是二十一世紀的新興學(xué)科,人類基因組計劃(Human Genome Project,HGP)的啟動推動了生物信息學(xué)的產(chǎn)生和蓬勃發(fā)展。海量數(shù)據(jù)的產(chǎn)生,需要新的方法、新的計算工具來進行數(shù)據(jù)管理跟提取有用信息構(gòu)建二次數(shù)據(jù)庫。因此,蛋白質(zhì)序列分析成為了生物信息學(xué)家們的關(guān)注熱點,由于缺少實驗數(shù)據(jù),研究者們希望通過蛋白質(zhì)序列信息預(yù)測其結(jié)構(gòu)特征或者進行功能分類。

5、 本論文的第二部分(第四章——第七章)從氨基酸替代模型入手,提出表征蛋白質(zhì)序列相似性的“S”函數(shù),通過建立蛋白質(zhì)頻率譜,使用支持向量機及Delaunay三角化算法分類G蛋白偶聯(lián)受體,之后在進一步的研究中,我們將偏最小二乘投影與Delaunay三角化算法結(jié)合,預(yù)測G蛋白偶聯(lián)受體拓撲結(jié)構(gòu)。蛋白質(zhì)的三級結(jié)構(gòu)與其一維的氨基酸序列排布是一一對應(yīng)的,通過不同氨基酸的結(jié)構(gòu)以及所處環(huán)境的不同,形成了特定的三級結(jié)構(gòu)。因此,將信號處理方法用于蛋白質(zhì)序

6、列分析的關(guān)鍵問題,是將氨基酸字符替換成數(shù)字,如何在保證少損失結(jié)構(gòu)信息的條件下,把蛋白質(zhì)字符序列轉(zhuǎn)換成數(shù)字序列。文中構(gòu)建的雜化氨基酸替代模型,在蛋白質(zhì)序列集HTH-type transcriptional repressor和Lysozyme的分類中取得了很高的準確度。在BAliBASE數(shù)據(jù)庫的分類中,對于相似性低于20[%]的蛋白質(zhì)序列,小波函數(shù)Bior3.3具有最高的識別率,基于此結(jié)果,我們提出了衡量序列相似性的“S”函數(shù),該函數(shù)利用

7、小波分解系數(shù)能量歸一化的特性,對不同尺度的小波系數(shù)賦以相應(yīng)的權(quán)重并相加和,最終得到S值的高低判定相似性的大小?!癝”函數(shù)應(yīng)用于相似蛋白質(zhì)數(shù)據(jù)集Fibrillin和Amelogenin precursor的計算中,所得結(jié)果與實驗結(jié)論相吻合。G蛋白偶聯(lián)受體家族的分類及結(jié)構(gòu)識別一直是序列分析的熱點,我們在使用氨基酸替代模型轉(zhuǎn)換蛋白質(zhì)序列的基礎(chǔ)上,通過傅立葉變換建立蛋白質(zhì)頻率譜,該頻率譜描述了在時間尺度上出現(xiàn)頻率最高的序列片段,則這些片段有可能

8、是蛋白質(zhì)序列的保守區(qū)域或是功能區(qū)域。本文中使用支持向量機分類G蛋白偶聯(lián)受體,以蛋白質(zhì)頻率譜作為輸入?yún)?shù),取得了90%以上的準確率,而使用Delaunay三角化算法對其的分類精度也在80%以上,以此為基礎(chǔ),我們進一步研究對G蛋白偶聯(lián)受體的拓撲結(jié)構(gòu)識別,即預(yù)測氮端的位置和7個跨膜區(qū)域的起止位置,通過Delaunay三角化算法與偏最小二乘投影法的結(jié)合,預(yù)測氮端的正確率達到100%,預(yù)測7個跨膜區(qū)域的正確率達到90%,同時對其位置的預(yù)測誤差在8

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論