數(shù)據(jù)的約束性低維表示及其應(yīng)用.pdf_第1頁
已閱讀1頁,還剩140頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、信息時(shí)代的蓬勃發(fā)展給人們創(chuàng)造了無限機(jī)遇,并深刻地改變了以往的生活和交流方式,但同時(shí)作為各類應(yīng)用中重要表達(dá)載體的海量數(shù)據(jù)給機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和計(jì)算機(jī)視覺等領(lǐng)域帶來了各種嚴(yán)峻挑戰(zhàn)。數(shù)據(jù)爆炸式的增長伴隨著存儲空間和計(jì)算資源的需求與日俱增,尤其是許多類型數(shù)據(jù)的表征維度非常高并含有冗余信息,如網(wǎng)頁文本、基因表達(dá)和圖像視頻等等。這迫切需要新的方法和技術(shù)挖掘數(shù)據(jù)的低維潛在結(jié)構(gòu)特征,降低數(shù)據(jù)處理的時(shí)空復(fù)雜度,節(jié)省計(jì)算開銷。本文主要研究數(shù)據(jù)的約束性低維表

2、示,探討如何恰當(dāng)?shù)胤从硵?shù)據(jù)的本征結(jié)構(gòu),從而有效提高后續(xù)學(xué)習(xí)任務(wù)的性能。為此,本文從不同的角度提出多種新的學(xué)習(xí)方法應(yīng)用于不同的場景。具體而言,全文的主要貢獻(xiàn)概括如下:
  研究聯(lián)合聚類和譜聚類中的約束性數(shù)據(jù)低維表示問題,分別提出一種關(guān)系多流形聯(lián)合聚類方法(RMC)和一種基于復(fù)合流形的局部判別譜聚類方法(SCCL)。RMC針對聯(lián)合聚類中難以發(fā)現(xiàn)多類型關(guān)系數(shù)據(jù)(如樣本數(shù)據(jù)和特征數(shù)據(jù))真實(shí)流形的問題,基于對稱非負(fù)矩陣三分解利用復(fù)合流形約束

3、最大程度地逼近多類型關(guān)系數(shù)據(jù)的真實(shí)流形;該方法通過學(xué)習(xí)凸包中的一組候選流形的線性組合形成復(fù)合流形,充分考慮多樣化流形提供的互補(bǔ)信息,恰當(dāng)?shù)毓烙?jì)關(guān)系數(shù)據(jù)的真實(shí)流形,有利于學(xué)習(xí)更具信息量的低維數(shù)據(jù)表示。SCCL基于傳統(tǒng)的譜聚類在利用復(fù)合流形近似數(shù)據(jù)的真實(shí)流形的同時(shí)考慮數(shù)據(jù)的判別約束信息,較大地提升了譜聚類的性能。在網(wǎng)頁文本、手寫體數(shù)字字母、物體圖像、生物信息表達(dá)和人工數(shù)據(jù)上的成功應(yīng)用表明了兩種方法均能發(fā)揮各自的優(yōu)越性能。
  研究基于

4、非負(fù)矩陣分解的約束性數(shù)據(jù)低維表示,在線性回歸模型的基礎(chǔ)上考慮數(shù)據(jù)的局部結(jié)構(gòu)約束和先驗(yàn)知識,提出局部約束性A-最優(yōu)非負(fù)投影方法(LCA)。該方法的特點(diǎn)在于:1)將系數(shù)變量協(xié)方差的跡看做非負(fù)矩陣分解的正則項(xiàng);2)當(dāng)高維非負(fù)數(shù)據(jù)被投影到低維子空間時(shí),相應(yīng)的局部幾何結(jié)構(gòu)可通過數(shù)據(jù)點(diǎn)的鄰居塊得到較好地保持。3)通過輔助矩陣將作為先驗(yàn)知識的少量監(jiān)督信息融入到子空間學(xué)習(xí)中,有效地指導(dǎo)低維數(shù)據(jù)表示的學(xué)習(xí)。實(shí)驗(yàn)部分將LCA應(yīng)用于人臉圖像、手寫體數(shù)字字母,

5、以及網(wǎng)頁文本,結(jié)果證實(shí)新方法可以獲得比其他方法更令人滿意的效果。
  研究基于概念分解的數(shù)據(jù)約束性低維表示,針對傳統(tǒng)的概念分解和局部概念分解不能在非線性空間中反映數(shù)據(jù)幾何結(jié)構(gòu)的問題,分別提出流形核概念分解方法(MKCF)和基于圖的局部概念坐標(biāo)分解方法(GLCF)。兩種方法均通過在變形再生核希爾伯特空間里通過流形核學(xué)習(xí)得到流形自適應(yīng)核,反映非線性空間里數(shù)據(jù)的局部幾何流形。這樣,投影到低維空間里的數(shù)據(jù)表示能夠很好地保持原始數(shù)據(jù)的局部結(jié)

6、構(gòu)特征。MKCF直接基于概念分解進(jìn)行流形核學(xué)習(xí);而GLCF還利用局部坐標(biāo)編碼考慮局部稀疏約束,即每個(gè)數(shù)據(jù)點(diǎn)僅與少量的錨點(diǎn)足夠接近,且每個(gè)潛在概念與相應(yīng)的數(shù)據(jù)點(diǎn)盡可能接近。在網(wǎng)頁和醫(yī)療文本、人臉和物體圖像以及基因表達(dá)上應(yīng)用這兩種方法做聚類分析的結(jié)果很好地體現(xiàn)了新方法的優(yōu)勢和有效性。
  為了求解上述問題中出現(xiàn)的一系列目標(biāo)函數(shù),文中針對性地采用了乘數(shù)更新算法、廣義變量更新算法、譜分析、熵鏡像下降算法和坐標(biāo)下降算法等優(yōu)化方法。此外,文中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論