Sparse方法在多標簽分類中的應(yīng)用.pdf_第1頁
已閱讀1頁,還剩63頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、分類是數(shù)據(jù)挖掘領(lǐng)域的研究熱點之一。在傳統(tǒng)的分類學(xué)習(xí)中,假定每個樣本只屬于一個類別標簽。而在現(xiàn)實應(yīng)用中,每個樣本可以和多個類別標簽相關(guān)聯(lián),例如一篇關(guān)于巴西世界杯的新聞報道,可以同時被貼上“運動會”、“足球”和“巴西”等多個標簽;根據(jù)不同的使用目的,一臺電腦可以同時擁有“影音”、“科研”和“網(wǎng)上購物”等多個功能,這類問題統(tǒng)稱為多標簽問題。多標簽分類學(xué)習(xí)已經(jīng)在文檔分類、信息檢索和生物信息學(xué)等多個領(lǐng)域得到廣泛應(yīng)用。然而,與傳統(tǒng)分類學(xué)習(xí)相比,多標

2、簽學(xué)習(xí)面臨更多的挑戰(zhàn)。首先,在多標簽學(xué)習(xí)中,標簽之間通常不是互相獨立的,而是存在相關(guān)性。如何度量這種相關(guān)性,并利用標簽之間的相關(guān)性來提高分類器的性能是一個開放問題。其次,與傳統(tǒng)的單標簽分類相似,多標簽學(xué)習(xí)同樣受到高維數(shù)據(jù)的影響,而且高維性在樣本的屬性空間和標簽空間中同時存在。特別地,隨著標簽數(shù)目的增加,標簽變量空間一般比較稀疏,這種稀疏性給多標簽學(xué)習(xí)帶來了挑戰(zhàn),也帶來了機遇。
  本文針對多標簽學(xué)習(xí)中遇到的問題,通過對不同的偏最小

3、二乘回歸(PLSR)模型進行改造,提出三種新的多標簽分類算法。理論分析和模擬實驗表明,這三種多標簽分類算法都可以獲得有效的分類結(jié)果。利用奇異值分解(SVD)可以有效地提取矩陣空間重要信息的特點,提出基于SVD-PLSR的多標簽分類算法,用于處理多標簽數(shù)據(jù)(Multi-label Data),簡稱SPMD。該算法能夠?qū)Χ鄻撕灁?shù)據(jù)同時進行維數(shù)約簡和回歸分析。首先,將類別標簽集合作為一個整體處理來探索標簽相關(guān)性;其次,通過奇異值分解技術(shù)求得樣

4、本空間和標簽空間的得分向量。最后,在偏最小二乘回歸技術(shù)的基礎(chǔ)上得到多標簽分類模型。利用嶺回歸(Ridge regression)可以處理變量多重共線性的技術(shù)特點,在偏最小二乘判別分析(PLS-DA)的基礎(chǔ)上,提出命名為RPLS-DA多標簽分類算法。該算法對PLS-DA算法施加l2約束,克服了PLS-DA在處理高維數(shù)據(jù)時遇到的“高維數(shù),小樣本”問題。利用稀疏學(xué)習(xí)模型LASSO對非線性迭代偏最小二乘回歸(NIPALS)進行稀疏改造,提出基于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論