基因表達(dá)數(shù)據(jù)的相似性度量和特征提取研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩99頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、DNA微陣列技術(shù)能同時(shí)檢測(cè)成千上萬(wàn)個(gè)基因甚至是全基因組的表達(dá)水平,為人類在分子水平進(jìn)行疾病的診斷和治療提供了全新的技術(shù)手段。利用海量的基因表達(dá)數(shù)據(jù),進(jìn)行基因功能分類和疾病診斷,已成為生物信息領(lǐng)域研究的熱點(diǎn)問(wèn)題。
   聚類是實(shí)現(xiàn)基因功能劃分的重要手段,其中相似性度量的選取至關(guān)重要;分類是實(shí)現(xiàn)疾病診斷的重要手段,針對(duì)基因表達(dá)數(shù)據(jù)的高維小樣本特性,進(jìn)行有效的降維和特征提取,就成為分類前的關(guān)鍵步驟。本論文針對(duì)基因聚類和樣本分類,分別從

2、基因相似性度量和特征提取兩個(gè)方向展開(kāi)研究。
   方向一:針對(duì)基因聚類任務(wù)中基因相似性度量的選取問(wèn)題,本論文透過(guò)基因表達(dá)水平,挖掘基因相似的深層次關(guān)系。從基因個(gè)體特征和基因關(guān)系特征兩個(gè)不同角度挖掘基因的相似性,分別提出基于最短路的基因相似性度量和基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的基因相似性度量。對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行聚類分析的實(shí)驗(yàn),驗(yàn)證了所提方法的有效性。
   (1)從基因個(gè)體特征出發(fā),提出了基于最短路的基因相似性度量。通過(guò)基因的表達(dá)相關(guān)

3、性構(gòu)建共表達(dá)基因網(wǎng)絡(luò),用求解網(wǎng)絡(luò)最短路的方法獲得基因個(gè)體特征的相似性,以最短路徑長(zhǎng)度作為基因的相似性度量。將該相似性度量和傳統(tǒng)聚類方法相結(jié)合,對(duì)yeast數(shù)據(jù)進(jìn)行基因聚類分析,與基于歐氏距離或皮爾森相關(guān)系數(shù)的聚類結(jié)果進(jìn)行比較,結(jié)果表明,基于最短路的相似性度量能獲得更好的聚類性能。
   (2)從基因關(guān)系特征出發(fā),提出了基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的基因相似性度量。通過(guò)閾值化基因表達(dá)相性來(lái)獲得基因關(guān)系網(wǎng)絡(luò),用網(wǎng)絡(luò)局部拓?fù)浣Y(jié)構(gòu)來(lái)表征基因的關(guān)系特

4、征,以關(guān)系特征的某種相似性作為基因的相似性度量?;谠撓嗨菩远攘?,采用傳統(tǒng)聚類方法對(duì)yeast數(shù)據(jù)進(jìn)行基因聚類分析,驗(yàn)證了基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的基因相似性度量的可行性。
   方向二:針對(duì)樣本分類任務(wù)中傳統(tǒng)特征提取方法在高維小樣本基因表達(dá)數(shù)據(jù)上的應(yīng)用局限性,提出一種基于樣本空間的特征提取算法和一種新的鑒別特征提取方法。
   (1)針對(duì)傳統(tǒng)方法在進(jìn)行基因表達(dá)數(shù)據(jù)的特征提取時(shí),存在計(jì)算復(fù)雜度高或矩陣嚴(yán)重奇異的問(wèn)題,提出一種基于

5、樣本空間的特征提取方法。把最優(yōu)變換向量用樣本的線性加權(quán)和表示,通過(guò)代數(shù)變換,把特征提取過(guò)程從高維的基因空間轉(zhuǎn)換到低維的樣本空間,從而有效降低了特征提取的計(jì)算復(fù)雜度和矩陣的奇異程度。對(duì)基因表達(dá)數(shù)據(jù)的特征提取實(shí)驗(yàn)驗(yàn)證了方法的有效性。
   (2)針對(duì)fisher線性鑒別分析方法(LDA)最優(yōu)子空間維數(shù)受樣本類別數(shù)限制和計(jì)算協(xié)方差矩陣的復(fù)雜性問(wèn)題,提出一種新的鑒別特征提取方法--類別保留投影(Class Preserving Proj

6、ection,CPP)。把兩兩樣本之間的類別關(guān)系作為權(quán)重系數(shù),通過(guò)最小化類內(nèi)兩兩樣本的平均距離和最大化類間兩兩樣本的平均距離,來(lái)構(gòu)造目標(biāo)函數(shù),采用線性投影方法尋找最優(yōu)鑒別特征。通過(guò)核技巧將CPP推廣到非線性空間,提出核類別保留投影(Kernel Class Preserving Projection,KCPP),用于解決非線性鑒別特征提取問(wèn)題。相比LDA,CPP最優(yōu)子空間的維數(shù)不受樣本類別數(shù)的限制,能找到更高維的最優(yōu)子空間;且不需要計(jì)算

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論