版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、癌癥是世界上最為嚴(yán)重的公共問題之一,中國(guó)癌癥發(fā)病率逐漸上升,但根據(jù)目前國(guó)內(nèi)的水平,三分之一的癌癥是可以預(yù)防的,有效提高癌癥的早期診斷率已經(jīng)被公認(rèn)為是改善其療效的關(guān)鍵。蛋白質(zhì)組學(xué)及相關(guān)技術(shù)的發(fā)展給癌癥病理的研究及預(yù)防等帶來了新的希望。研究表明在癌癥發(fā)病早期,病人體征沒有任何異常的情況下,蛋白質(zhì)芯片采集的數(shù)據(jù)及繪制的質(zhì)譜圖可較為直觀的顯示患者與健康人在蛋白表達(dá)水平上的差異。但若要對(duì)未知標(biāo)簽的樣本進(jìn)行可靠的預(yù)測(cè)還需生物信息學(xué)的協(xié)助。根據(jù)樣本質(zhì)
2、譜提出新的診斷技術(shù)來提高癌癥預(yù)診斷的準(zhǔn)確率和可靠性成為了蛋白質(zhì)組學(xué)研究的熱點(diǎn)問題之一。
機(jī)器學(xué)習(xí)理論的發(fā)展推動(dòng)了預(yù)診斷技術(shù)的進(jìn)步。但質(zhì)譜數(shù)據(jù)具有高維和小樣本的特點(diǎn),上萬的維特征讓一些分類器不知所措,僅有幾十個(gè)或上百個(gè)的樣本亦對(duì)分類器訓(xùn)練結(jié)果提出質(zhì)疑。目前,進(jìn)行特征提取及分類包括有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩大類。有監(jiān)督學(xué)習(xí)是對(duì)有概念標(biāo)記的訓(xùn)練集進(jìn)行學(xué)習(xí),對(duì)之外的數(shù)據(jù)分類。無監(jiān)督學(xué)習(xí)是對(duì)無概念標(biāo)記的訓(xùn)練集進(jìn)行學(xué)習(xí),所有標(biāo)記均未知。實(shí)際
3、應(yīng)用中,已標(biāo)樣本較難獲取,同時(shí)浪費(fèi)了大量未標(biāo)記樣本,而無監(jiān)督學(xué)習(xí)則浪費(fèi)了已標(biāo)記樣本,因此出現(xiàn)了同時(shí)利用兩種樣本的半監(jiān)督學(xué)習(xí)。在癌癥診斷方面,較為容易獲得大量未標(biāo)記樣本,而對(duì)未標(biāo)記的樣本進(jìn)行標(biāo)記則需付出很高的代價(jià)。半監(jiān)督學(xué)習(xí)所需的標(biāo)記樣本較少,同時(shí)還能利用未標(biāo)記樣本以輔助提高分類的準(zhǔn)確率和可靠性,因此非常適合于癌癥的分類問題。
在半監(jiān)督學(xué)習(xí)機(jī)制中,基于圖的半監(jiān)督學(xué)習(xí)受到研究者的青睞,其中局部全局一致性學(xué)習(xí)算法是基于圖的半監(jiān)督學(xué)習(xí)
4、算法中的一種,該算法充分利用了未標(biāo)樣本和已標(biāo)樣本,但其分類性能較依賴內(nèi)在參數(shù),進(jìn)行質(zhì)譜數(shù)據(jù)分析會(huì)帶來諸多不便。為此,采用了簡(jiǎn)潔局部全局一致性學(xué)習(xí)方法避免了參數(shù)對(duì)分類性能的干擾。但該算法面對(duì)維災(zāi)問題依然失效,分類性能低下。因此針對(duì)蛋白質(zhì)質(zhì)譜數(shù)據(jù)存在高噪聲、高冗余性的特點(diǎn)及維災(zāi)問題,本文提出了一種基于半監(jiān)督學(xué)習(xí)的多步降維特征提取算法與基于稀疏表示和半監(jiān)督學(xué)習(xí)的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分類算法。
基于半監(jiān)督學(xué)習(xí)的多步降維特征提取算法,首先通過
5、逐步降維去除冗余信息,逐步篩選出相關(guān)性低但判別性高的特征,最后用于簡(jiǎn)潔局部全局一致性學(xué)習(xí)的半監(jiān)督學(xué)習(xí)算法中。主要思路是首先對(duì)原始數(shù)據(jù)進(jìn)行降噪及提高信噪比等預(yù)處理,即去除大部分的高頻或低頻噪聲,并且使蛋白質(zhì)質(zhì)譜數(shù)據(jù)之間的對(duì)比性增強(qiáng)。然后利用T檢驗(yàn)進(jìn)行降維,初步篩選高維度的特征,初步篩選后的數(shù)據(jù)特征保留了冗余度較高和相關(guān)性較大的特征。其次對(duì) T檢驗(yàn)之后的數(shù)據(jù)特征進(jìn)行離散小波變換(DWT)以及相對(duì)熵排序,進(jìn)一步篩選出噪聲低、冗余度低的特征。之
6、后再進(jìn)行主成分分析,進(jìn)一步降維,同時(shí)也去除了特征間的相關(guān)性,保留了一小部分與樣本類別相關(guān)性大的非相關(guān)數(shù)據(jù)特征。最后,利用簡(jiǎn)潔局部全局一致性學(xué)習(xí)算法對(duì)逐步降維去噪后的數(shù)據(jù)特征進(jìn)行分類。
利用該方法在三個(gè)樣本數(shù)據(jù)集(分別為卵巢癌樣本集OC-WCX2b、前列腺癌樣本集 PC-H4及浙江省腫瘤醫(yī)院臨床乳腺癌樣本集BC-WCX2a)上進(jìn)行測(cè)試,結(jié)果顯示該方法分類效果較好(分別為99.13%、96.81%、92.78%),敏感性較高(分別
7、為99.01%、96.81%、100%)。同時(shí)設(shè)計(jì)了多組對(duì)比試驗(yàn),包括T檢驗(yàn)的有無、DWT和相對(duì)熵排序的有無、主成分分析的有無和多步降維方法的有無對(duì)比試驗(yàn),結(jié)果各步方法都能明顯提高簡(jiǎn)潔局部全局一致性學(xué)習(xí)算法的分類性能。另外,對(duì)三個(gè)數(shù)據(jù)集采用PCA算法及KPCA算法進(jìn)行降維,采用基于高斯核函數(shù)的SVM算法及LDA算法進(jìn)行分類,與本文所提算法進(jìn)行比較。結(jié)果在數(shù)據(jù)集OC-WCX2b上的分類率差別不顯著,在數(shù)據(jù)集PC-H4及BC-WCX2a上分
8、類率顯著不同,本文所提算法結(jié)果分類率較高,且綜合水平更高。為進(jìn)一步檢驗(yàn)算法分類性能,本文還設(shè)計(jì)了不同分類器間分類性能對(duì)比實(shí)驗(yàn)。降維算法均為本文所提方法,分類方法分別為樸素貝葉斯算法、SVM算法、kNN算法。結(jié)果在數(shù)據(jù)集BC-WCX2a上本文所提算法的分類率最高且最穩(wěn)定。檢驗(yàn)實(shí)驗(yàn)結(jié)果表明采用多步降維方法進(jìn)行特征提取的方法是有效的,再利用半監(jiān)督學(xué)習(xí)進(jìn)行分類,分類效果較好。
基于稀疏表示和半監(jiān)督學(xué)習(xí)的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分類方法首先進(jìn)行核
9、主成分分析,解決維數(shù)災(zāi)難問題,然后構(gòu)造稀疏鄰接圖,再運(yùn)用于基于圖的半監(jiān)督學(xué)習(xí)的簡(jiǎn)潔局部全局一致性學(xué)習(xí)算法中。主要思路是首先利用核主成分分析對(duì)蛋白質(zhì)質(zhì)譜數(shù)據(jù)進(jìn)行主成分提取,使質(zhì)譜特征的維數(shù)小于樣本數(shù),以解決維災(zāi)問題;然后求解樣本稀疏表示向量,構(gòu)造稀疏鄰接圖,本實(shí)驗(yàn)是通過求解L1范式的優(yōu)化問題來獲取所有樣本的稀疏表示向量的,把稀疏向量作為樣本間邊權(quán)值從而得到稀疏鄰接圖;最后運(yùn)用基于圖的半監(jiān)督學(xué)習(xí)的簡(jiǎn)潔局部全局一致性學(xué)習(xí)算法進(jìn)行標(biāo)簽傳遞,對(duì)有
10、標(biāo)記和無標(biāo)記樣本進(jìn)行預(yù)測(cè)判別。
利用該方法在同上三個(gè)數(shù)據(jù)集上進(jìn)行測(cè)試,結(jié)果顯示該方法分類效果較好(分別為99.66%、97.35%、92.02%),敏感性較高(分別為99.97%、97.61%、98.05%)。另外對(duì)多個(gè)經(jīng)典降維分類算法在三個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試。降維方法采用PCA及KPCA算法,分類方法采用基于高斯核函數(shù)的SVM算法及LDA算法,與本文所提算法比較。結(jié)果在數(shù)據(jù)集OC-WCX2b及BC-WCX2a上結(jié)果無顯著差距
11、。在數(shù)據(jù)集PC-H4上,本文所提算法是這幾類算法中效果最好的。為進(jìn)一步檢驗(yàn)所提算法分類性能,設(shè)計(jì)了不同分類器間分類性能對(duì)比實(shí)驗(yàn)。降維算法均為基于PolyPlus核的KPCA算法,然后利用SVM、LDA及SRC進(jìn)行分類。結(jié)果表明本文所提算法分類性能普遍較高,且穩(wěn)定性較好。同時(shí),探討了分類性能與已標(biāo)樣本數(shù)量的關(guān)系,結(jié)果表明總體趨勢(shì)為分類率隨已標(biāo)樣本數(shù)量的增加而升高,達(dá)到某個(gè)閾值時(shí)會(huì)趨于穩(wěn)定??傊?基于稀疏表示的半監(jiān)督學(xué)習(xí)方法具有較好的分類性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于稀疏表示的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析.pdf
- 基于優(yōu)化算法的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析.pdf
- 基于聚類分析的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析研究.pdf
- 蛋白質(zhì)功能預(yù)測(cè)的半監(jiān)督學(xué)習(xí)算法研究.pdf
- 應(yīng)用SELDI-TOF MS質(zhì)譜技術(shù)構(gòu)建臨床常見病原菌蛋白指紋數(shù)據(jù)庫(kù).pdf
- 基于SELDI-TOF-MS技術(shù)的乳腺癌血清蛋白質(zhì)譜研究.pdf
- 半監(jiān)督學(xué)習(xí)下的藥物靶蛋白質(zhì)預(yù)測(cè)方法研究.pdf
- 蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)分析的新方法研究開發(fā).pdf
- 基于質(zhì)譜數(shù)據(jù)的蛋白質(zhì)識(shí)別系統(tǒng).pdf
- 大腸癌SELDI-TOF-MS蛋白質(zhì)組圖譜的分析.pdf
- 蛋白質(zhì)組質(zhì)譜數(shù)據(jù)分析平臺(tái)的建立及其在大規(guī)模數(shù)據(jù)分析中的應(yīng)用.pdf
- 基于模型的蛋白質(zhì)芯片數(shù)據(jù)分析.pdf
- 基于SELDI-TOF-MS技術(shù)的壺腹周圍癌血清蛋白質(zhì)譜的初步研究.pdf
- 基于無監(jiān)督學(xué)習(xí)技術(shù)的位置大數(shù)據(jù)分析.pdf
- 基于半監(jiān)督和主動(dòng)學(xué)習(xí)的蛋白質(zhì)關(guān)系抽取研究.pdf
- 基于質(zhì)譜數(shù)據(jù)分析的蛋白質(zhì)鑒定——斷裂模型、磷酸化肽段以及譜庫(kù)搜索方法的研究.pdf
- 食管鱗癌血清SELDI蛋白質(zhì)組表達(dá)譜的研究.pdf
- 基于監(jiān)督學(xué)習(xí)的人類蛋白質(zhì)網(wǎng)絡(luò)復(fù)合物識(shí)別.pdf
- 基于串聯(lián)質(zhì)譜的蛋白質(zhì)鑒定算法研究.pdf
- 基于群體智能的特征選擇算法在SELDI質(zhì)譜數(shù)據(jù)分析中的研究.pdf
評(píng)論
0/150
提交評(píng)論