面向維數(shù)約簡和模式分類的增減量學習研究.pdf_第1頁
已閱讀1頁,還剩176頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、在大數(shù)據(jù)時代,海量高維在線數(shù)據(jù)對機器學習提出了新的需求和前所未有的挑戰(zhàn)。從日益增加的數(shù)據(jù)中快速而有效的學習新知識成為一個技術(shù)難點。傳統(tǒng)的批量機器學習算法面對新數(shù)據(jù)時,需要拋棄已有的學習結(jié)果,重新訓練和重新學習。隨著數(shù)據(jù)規(guī)模的不斷增加,批量算法對時間和空間的需求也快速增長,最終導致系統(tǒng)的學習速度滯后于數(shù)據(jù)的更新速度。因此,增量學習應運而生,旨在從新數(shù)據(jù)中漸進式的更新知識,同時修正和加強已有知識。此外,在大數(shù)據(jù)時代,數(shù)據(jù)還具有信息繁雜、真假

2、難辨、數(shù)據(jù)價值密度低的特性,如何從已學習的知識中快速而有效的“去學習”過時無效或者錯誤的數(shù)據(jù)是機器學習面對的另一個技術(shù)難題。減量學習是增量學習的逆過程,其目的是微調(diào)式的更新知識,快速修正已有知識中無效或者錯誤的部分。
  本文從機器學習中的兩個核心問題,即維數(shù)約簡和模式分類出發(fā),針對增減量學習展開了深入的探討和研究。主要的工作和貢獻如下:
  1.提出了特征值分解雙向更新算法。該方法可以在任意增加和刪除樣本后,快速更新數(shù)據(jù)協(xié)

3、方差矩陣的特征值分解,避免了傳統(tǒng)基于奇異值分解的方法因為缺少右右奇異向量導致向下更新為NP-Hard的問題。特征值分解雙向更新算法本質(zhì)是將高維數(shù)據(jù)空間中協(xié)方差矩陣的增減量問題轉(zhuǎn)為到降維子空間對應的行空間中自相關(guān)矩陣的增減量問題。在序列化使用中,當全數(shù)據(jù)矩陣滿足低秩偏移結(jié)構(gòu)時,特征值分解雙向更新算法在理論上具有最優(yōu)性。然后,本文基于特征值分解雙向更新提出了增量、減量和增減量主成分分析算法,證明了添加或者刪除樣本引起均值變化的影響可以通過向

4、中心化數(shù)據(jù)中額外添加或刪除幾個均值修正樣本補償。所提出的增減量主成分分析是目前第一種可同時添加和刪除新舊樣本的在線子空間學習算法。實驗表明,所提出的減量主成分分析算法估計主成分的準確度優(yōu)于傳統(tǒng)方法;所提出的增減量主成分分析算法的估計精度和計算效率要明顯優(yōu)于兩步使用傳統(tǒng)增量和減量方法的實現(xiàn)方式。
  2.提出了基于廣義奇異值分解的局部鑒別子空間嵌入算法及其增量形式。本文采用廣義奇異值分解來解決局部鑒別子空間嵌入的廣義特征值問題。本文

5、算法不需要類內(nèi)和類間鄰接散度矩陣是非奇異的,并且在全空間中搜索最佳嵌入子空間,因而可充分挖掘隱藏在數(shù)據(jù)內(nèi)的局部鑒別信息。所提出的增量算法主要是通過使用奇異值分解加性修正算法解決廣義奇異值分解的增量更新問題而實現(xiàn)的。實驗表明,所提出算法的性能要優(yōu)于原始的局部鑒別子空間嵌入算法和所比較的傳統(tǒng)維數(shù)約簡算法;同時,所提出的增量算法的計算效率要遠高于批量算法。
  3.提出了三種基于廣義逆的增減量極限學習機,即節(jié)點增量、樣本增量和樣本減量極

6、限學習機。它們通過隱層輸出矩陣廣義逆的向上更新和向下更新解決了極限學習機添加新隱節(jié)點、學習新樣本和去學習舊樣本后的更新問題。所提出的基于廣義逆的增減量算法可以得到與批量算法相同的結(jié)果,因而保持了極限學習機的最優(yōu)性、最小范數(shù)和最佳泛化能力。此外,樣本增量極限學習機還解決了傳統(tǒng)在線序列極限學習機無法自啟動和數(shù)值不穩(wěn)定的問題。據(jù)我們所知,樣本減量極限學習機是極限學習機的第一個減量實現(xiàn)。實驗表明,所提出算法的回歸、分類性能和計算穩(wěn)定性都優(yōu)于傳統(tǒng)

7、算法。
  4.提出了基于特征空間分裂的異常檢測算法。該算法的檢測依據(jù)是異常樣本對主導主成分方向的影響要遠高于正常樣本。該算法將減量主成分分析應用到基于角度的異常檢測,并在它們之間建立了一種天然的聯(lián)系,即利用主成分減量更新時旋轉(zhuǎn)矩陣的對角線元素反映角度異常。該算法是基于在線過采樣主成分分析的異常檢測算法的改進。特征空間分裂算法解決了在線過采樣主成分分析算法中主方向的估計誤差較大的問題;多主成分策略在不影響對正常樣本的判斷同時提高了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論