多標簽分類中特征選擇算法研究.pdf_第1頁
已閱讀1頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著信息技術的發(fā)展,多標簽分類技術已逐漸被廣泛應用于各種領域。例如,在計算機視覺領域,多標簽分類技術可用于自動標注圖像和視頻;在生物信息領域,多標簽分類技術可用于基因功能預測;在文本挖掘領域,多標簽分類技術可用于文本分類。不管多標簽分類技術被用于哪個領域,它都面臨特征數(shù)過大引起的問題,如過擬合等。一般,特征可被分為三種,即相關特征、無關特征和冗余特征。特征選擇的目的就是最佳特征子集,該子集包含的特征數(shù)盡量少且信息盡量全。
  多標

2、簽特征選擇技術就是專門針對多標簽數(shù)據(jù)進行特征選擇的技術。與傳統(tǒng)的特征選擇一樣,多標簽分類技術也可分為三類,即過濾式、封裝式、嵌入式。一般,過濾式方法有兩種。其一是將先多標簽數(shù)據(jù)轉化為單標簽數(shù)據(jù)再以傳統(tǒng)的過濾式方法的研究方案解決問題,該種方法是以破壞標簽間關聯(lián)性為代價來降低問題難度。其二是改進傳統(tǒng)的評價標準或直接提出新的評價標準,該種方法目前并不多。封裝式和嵌入式方法都依賴于分類器,通過改進搜索算法可獲得更好的特征子集。雖然,現(xiàn)在已有一部

3、分多標簽分類算法,但這些算法同樣還存在一定問題。為了更好的解決在多標簽分類所面臨的由維數(shù)引起的問題,本文將針對具體問題做出下工作:
  (1)目前,常見的多標簽特征選擇算法一般忽略了樣本與樣本之間的聯(lián)系。事實上,相似樣本可能具有相似的標簽信息,任意樣本都是可以被其它同類樣本表征的。為了獲得更好的特征子集,我們先通過最小二乘回歸尋找到樣本與樣本之間的關聯(lián),再合理兼顧這些關聯(lián)基礎上獲得特征的表征分數(shù),接著根據(jù)表征分數(shù)大小獲得特征排名序

4、列。
  (2)在封裝式特征選擇算法中,尋找的特征子集由分類器性能和搜索算法共同決定。幾種完整的封裝式算法組合而成的特征選擇算法需要保證每個子算法的運行時間才能保證效果好?;谶z傳算法的封裝式方法容易因早熟現(xiàn)象的出現(xiàn)而未能使特征選擇結果達到全局最優(yōu)。為了獲得較好特征選擇結果,我們先分析模擬退火中的Metropolis準則和遺傳算法中的變異操作,再將Metropolis準則和大變異引入遺傳算法,最后提出一種基于改進型遺傳算法的多標簽

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論