基于半監(jiān)督學(xué)習(xí)的SELDI-TOF蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析.pdf_第1頁
已閱讀1頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、癌癥是世界上最為嚴(yán)重的公共問題之一,中國癌癥發(fā)病率逐漸上升,但根據(jù)目前國內(nèi)的水平,三分之一的癌癥是可以預(yù)防的,有效提高癌癥的早期診斷率已經(jīng)被公認(rèn)為是改善其療效的關(guān)鍵。蛋白質(zhì)組學(xué)及相關(guān)技術(shù)的發(fā)展給癌癥病理的研究及預(yù)防等帶來了新的希望。研究表明在癌癥發(fā)病早期,病人體征沒有任何異常的情況下,蛋白質(zhì)芯片采集的數(shù)據(jù)及繪制的質(zhì)譜圖可較為直觀的顯示患者與健康人在蛋白表達(dá)水平上的差異。但若要對未知標(biāo)簽的樣本進(jìn)行可靠的預(yù)測還需生物信息學(xué)的協(xié)助。根據(jù)樣本質(zhì)

2、譜提出新的診斷技術(shù)來提高癌癥預(yù)診斷的準(zhǔn)確率和可靠性成為了蛋白質(zhì)組學(xué)研究的熱點問題之一。
  機(jī)器學(xué)習(xí)理論的發(fā)展推動了預(yù)診斷技術(shù)的進(jìn)步。但質(zhì)譜數(shù)據(jù)具有高維和小樣本的特點,上萬的維特征讓一些分類器不知所措,僅有幾十個或上百個的樣本亦對分類器訓(xùn)練結(jié)果提出質(zhì)疑。目前,進(jìn)行特征提取及分類包括有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩大類。有監(jiān)督學(xué)習(xí)是對有概念標(biāo)記的訓(xùn)練集進(jìn)行學(xué)習(xí),對之外的數(shù)據(jù)分類。無監(jiān)督學(xué)習(xí)是對無概念標(biāo)記的訓(xùn)練集進(jìn)行學(xué)習(xí),所有標(biāo)記均未知。實際

3、應(yīng)用中,已標(biāo)樣本較難獲取,同時浪費了大量未標(biāo)記樣本,而無監(jiān)督學(xué)習(xí)則浪費了已標(biāo)記樣本,因此出現(xiàn)了同時利用兩種樣本的半監(jiān)督學(xué)習(xí)。在癌癥診斷方面,較為容易獲得大量未標(biāo)記樣本,而對未標(biāo)記的樣本進(jìn)行標(biāo)記則需付出很高的代價。半監(jiān)督學(xué)習(xí)所需的標(biāo)記樣本較少,同時還能利用未標(biāo)記樣本以輔助提高分類的準(zhǔn)確率和可靠性,因此非常適合于癌癥的分類問題。
  在半監(jiān)督學(xué)習(xí)機(jī)制中,基于圖的半監(jiān)督學(xué)習(xí)受到研究者的青睞,其中局部全局一致性學(xué)習(xí)算法是基于圖的半監(jiān)督學(xué)習(xí)

4、算法中的一種,該算法充分利用了未標(biāo)樣本和已標(biāo)樣本,但其分類性能較依賴內(nèi)在參數(shù),進(jìn)行質(zhì)譜數(shù)據(jù)分析會帶來諸多不便。為此,采用了簡潔局部全局一致性學(xué)習(xí)方法避免了參數(shù)對分類性能的干擾。但該算法面對維災(zāi)問題依然失效,分類性能低下。因此針對蛋白質(zhì)質(zhì)譜數(shù)據(jù)存在高噪聲、高冗余性的特點及維災(zāi)問題,本文提出了一種基于半監(jiān)督學(xué)習(xí)的多步降維特征提取算法與基于稀疏表示和半監(jiān)督學(xué)習(xí)的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分類算法。
  基于半監(jiān)督學(xué)習(xí)的多步降維特征提取算法,首先通過

5、逐步降維去除冗余信息,逐步篩選出相關(guān)性低但判別性高的特征,最后用于簡潔局部全局一致性學(xué)習(xí)的半監(jiān)督學(xué)習(xí)算法中。主要思路是首先對原始數(shù)據(jù)進(jìn)行降噪及提高信噪比等預(yù)處理,即去除大部分的高頻或低頻噪聲,并且使蛋白質(zhì)質(zhì)譜數(shù)據(jù)之間的對比性增強(qiáng)。然后利用T檢驗進(jìn)行降維,初步篩選高維度的特征,初步篩選后的數(shù)據(jù)特征保留了冗余度較高和相關(guān)性較大的特征。其次對 T檢驗之后的數(shù)據(jù)特征進(jìn)行離散小波變換(DWT)以及相對熵排序,進(jìn)一步篩選出噪聲低、冗余度低的特征。之

6、后再進(jìn)行主成分分析,進(jìn)一步降維,同時也去除了特征間的相關(guān)性,保留了一小部分與樣本類別相關(guān)性大的非相關(guān)數(shù)據(jù)特征。最后,利用簡潔局部全局一致性學(xué)習(xí)算法對逐步降維去噪后的數(shù)據(jù)特征進(jìn)行分類。
  利用該方法在三個樣本數(shù)據(jù)集(分別為卵巢癌樣本集OC-WCX2b、前列腺癌樣本集 PC-H4及浙江省腫瘤醫(yī)院臨床乳腺癌樣本集BC-WCX2a)上進(jìn)行測試,結(jié)果顯示該方法分類效果較好(分別為99.13%、96.81%、92.78%),敏感性較高(分別

7、為99.01%、96.81%、100%)。同時設(shè)計了多組對比試驗,包括T檢驗的有無、DWT和相對熵排序的有無、主成分分析的有無和多步降維方法的有無對比試驗,結(jié)果各步方法都能明顯提高簡潔局部全局一致性學(xué)習(xí)算法的分類性能。另外,對三個數(shù)據(jù)集采用PCA算法及KPCA算法進(jìn)行降維,采用基于高斯核函數(shù)的SVM算法及LDA算法進(jìn)行分類,與本文所提算法進(jìn)行比較。結(jié)果在數(shù)據(jù)集OC-WCX2b上的分類率差別不顯著,在數(shù)據(jù)集PC-H4及BC-WCX2a上分

8、類率顯著不同,本文所提算法結(jié)果分類率較高,且綜合水平更高。為進(jìn)一步檢驗算法分類性能,本文還設(shè)計了不同分類器間分類性能對比實驗。降維算法均為本文所提方法,分類方法分別為樸素貝葉斯算法、SVM算法、kNN算法。結(jié)果在數(shù)據(jù)集BC-WCX2a上本文所提算法的分類率最高且最穩(wěn)定。檢驗實驗結(jié)果表明采用多步降維方法進(jìn)行特征提取的方法是有效的,再利用半監(jiān)督學(xué)習(xí)進(jìn)行分類,分類效果較好。
  基于稀疏表示和半監(jiān)督學(xué)習(xí)的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分類方法首先進(jìn)行核

9、主成分分析,解決維數(shù)災(zāi)難問題,然后構(gòu)造稀疏鄰接圖,再運用于基于圖的半監(jiān)督學(xué)習(xí)的簡潔局部全局一致性學(xué)習(xí)算法中。主要思路是首先利用核主成分分析對蛋白質(zhì)質(zhì)譜數(shù)據(jù)進(jìn)行主成分提取,使質(zhì)譜特征的維數(shù)小于樣本數(shù),以解決維災(zāi)問題;然后求解樣本稀疏表示向量,構(gòu)造稀疏鄰接圖,本實驗是通過求解L1范式的優(yōu)化問題來獲取所有樣本的稀疏表示向量的,把稀疏向量作為樣本間邊權(quán)值從而得到稀疏鄰接圖;最后運用基于圖的半監(jiān)督學(xué)習(xí)的簡潔局部全局一致性學(xué)習(xí)算法進(jìn)行標(biāo)簽傳遞,對有

10、標(biāo)記和無標(biāo)記樣本進(jìn)行預(yù)測判別。
  利用該方法在同上三個數(shù)據(jù)集上進(jìn)行測試,結(jié)果顯示該方法分類效果較好(分別為99.66%、97.35%、92.02%),敏感性較高(分別為99.97%、97.61%、98.05%)。另外對多個經(jīng)典降維分類算法在三個數(shù)據(jù)集上進(jìn)行了測試。降維方法采用PCA及KPCA算法,分類方法采用基于高斯核函數(shù)的SVM算法及LDA算法,與本文所提算法比較。結(jié)果在數(shù)據(jù)集OC-WCX2b及BC-WCX2a上結(jié)果無顯著差距

11、。在數(shù)據(jù)集PC-H4上,本文所提算法是這幾類算法中效果最好的。為進(jìn)一步檢驗所提算法分類性能,設(shè)計了不同分類器間分類性能對比實驗。降維算法均為基于PolyPlus核的KPCA算法,然后利用SVM、LDA及SRC進(jìn)行分類。結(jié)果表明本文所提算法分類性能普遍較高,且穩(wěn)定性較好。同時,探討了分類性能與已標(biāo)樣本數(shù)量的關(guān)系,結(jié)果表明總體趨勢為分類率隨已標(biāo)樣本數(shù)量的增加而升高,達(dá)到某個閾值時會趨于穩(wěn)定??傊?基于稀疏表示的半監(jiān)督學(xué)習(xí)方法具有較好的分類性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論