主動學習算法中采樣策略研究.pdf_第1頁
已閱讀1頁,還剩113頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、當前,文本挖掘、語音識別、生物信息發(fā)掘和視覺對象分類等應用領域面臨的一個現(xiàn)實問題是:無標注樣例數(shù)目眾多,易于獲得;標注樣例數(shù)量稀少,難于獲得。作為機器學習領域的重要研究方向之一,主動學習算法可以同時利用標注樣例和無標注樣例來構建高精度分類模型,因此,本文對主動學習算法中采樣策略進行深入研究,并將所提出采樣策略算法應用于視覺對象分類任務中。
  視覺對象的語義理解是計算機視覺領域的重要問題。網(wǎng)絡技術的快速發(fā)展使得短時間內獲取大量圖像

2、成為可能,但對這些無監(jiān)督或弱監(jiān)督圖片中包含的視覺對象進行分類成為一個艱巨、富有挑戰(zhàn)性的任務。越來越多的科研人員致力于發(fā)展有效的機器學習算法,在已標注圖像集上建立模型,繼而利用學習到的知識判斷和劃分視覺對象所屬的類別。這一做法通常需要大量標注圖像用于模型訓練過程,而為這些圖像添加精確的標注信息需要花費大量的人力、物力,因此,迫切需要充分利用標注者資源,減少人工標注代價,旨在以盡量低的標注代價建立較高精度的模型。
  為了更加有效地收

3、集和利用圖像的標注信息,主動學習算法提供了一種解決途徑。算法隨機選擇少量圖像并獲取其標注信息,通過模型與標注者進行交互的形式,利用已收集標注圖像中的語義信息和知識,選擇部分最有助于模型訓練的無標注圖像提交標注者進行標注。主動學習算法的優(yōu)勢是通過讓學習系統(tǒng)向標注者進行提問的方式達到減少標注者工作量的目的,這不僅充分利用了珍貴的標注者資源,而且更好的將人類知識遷移到學習系統(tǒng)中。因此,發(fā)掘高效的主動學習算法對視覺對象的分類與檢索研究具有重要的

4、理論價值和現(xiàn)實意義。
  目前,雖然部分主動學習算法已經(jīng)用于減少對象分類與檢索任務中的標注代價,并取得了良好的效果,但是,這些算法中往往存在一些理想化的假設條件,導致其不能很好地適用于噪聲或者未標注圖像數(shù)據(jù)較大條件下的學習任務。鑒于這一點,本文以主動學習算法作為研究對象,在已有采樣策略的基礎上,結合統(tǒng)計學理論,發(fā)掘噪聲或未標注圖像數(shù)據(jù)較大條件下有效的樣例選擇算法。目的是以盡量低的標注和時間代價獲得較高精度的分類模型,并以此為基礎,

5、構造有效的主動學習算法模型應用于視覺對象分類與檢索實踐當中。主要的研究工作和創(chuàng)新點如下:
  (1)提出一種基于模型風險的加權樣例選擇算法
  針對主動學習算法中訓練數(shù)據(jù)與測試數(shù)據(jù)具有相同分布這一理想化假設條件,提出一種基于模型風險的加權樣例選擇算法,旨在解決因分布差異導致的采樣算法效果下降,以及在給定標注代價條件下分類模型訓練效果不理想的問題。算法對每個樣例設置權重,使用訓練數(shù)據(jù)與無標記數(shù)據(jù)上模型風險的期望誤差來估計樣例對

6、應權重值,并根據(jù)該值選擇最有助于分類模型訓練的樣例。算法與其它同類方法進行了比較,實驗結果證明分類模型的精度得到有效提高。
  (2)提出一種批量選擇樣例的訓練集構造方法
  針對主動學習算法面臨的因視覺對象數(shù)量多,但同類別對象數(shù)量稀少而造成的正反例數(shù)量不平衡這一實際問題,提出一種批量選擇樣例的訓練集構造方法。目的是在相同標注代價條件下,克服大量反例對分類模型的不利影響,提高分類模型的精度。算法利用分類模型風險,通過最小化模

7、型風險的方差來構造訓練分布,并依據(jù)該分布選擇樣例,建立訓練集。算法與其它同類方法進行了比較,實驗結果證明,在模型分類精度相同時,算法需要的標注代價更少。
  (3)提出一種多標注者主動學習概率模型
  針對主動學習算法中單一標注者必須能夠提供準確無誤的樣例標記這一理想化假設條件,提出一種標注噪聲條件下多標注者主動學習概率模型,旨在減少標注者標記質量對主動學習算法的影響。模型通過選擇準確度高的標注者提供標記和估計樣例對應正確標

8、記的方式達到同時減少標記代價和提高模型精度的目的。實驗結果表明,與其它同類方法相比,所提出概率模型有效減少了標注噪聲的影響,提高分類模型的性能。
  (4)提出一種基于Hash技術的主動學習樣例選擇算法
  針對未標注數(shù)據(jù)數(shù)量較大條件下主動學習算法選擇樣例時間開銷大的實際問題,提出一種基于Hash技術的樣例選擇算法,旨在快速返回所選樣例,減少主動學習分類模型所需時間。算法通過利用Hash技術選擇分類模型權重,進而,獲得無標注

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論