基于知識型數(shù)據(jù)的監(jiān)督學(xué)習(xí).pdf_第1頁
已閱讀1頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、本文研究基于知識型數(shù)據(jù)的學(xué)習(xí)問題。傳統(tǒng)機器學(xué)習(xí)問題主要依賴于帶標(biāo)注的訓(xùn)練樣本來完成建模與預(yù)測。但是一個公認(rèn)的問題是標(biāo)注數(shù)據(jù)是非常費時與費力的,已經(jīng)成為機器學(xué)習(xí)繼續(xù)發(fā)展的一個很大的瓶頸。機器學(xué)習(xí)的一個很重要的應(yīng)用就是網(wǎng)頁,文本數(shù)據(jù)的分類。為了能夠?qū)W(wǎng)頁數(shù)據(jù)進行高質(zhì)量的分類,需要大量的文本訓(xùn)練集。本文注意到一個新的趨勢,就是隨著互聯(lián)網(wǎng)的飛速發(fā)展和廣泛應(yīng)用,越來越多的服務(wù)和應(yīng)用出現(xiàn)在互聯(lián)網(wǎng)上。這些數(shù)據(jù)不僅僅是平面的文本數(shù)據(jù),同時帶有類標(biāo),結(jié)構(gòu)

2、等等格外的信息??紤]到任何人都可以很容易的得到大量的互聯(lián)網(wǎng)數(shù)據(jù),本文解決的的問題是,通過互聯(lián)網(wǎng)知識對機器學(xué)習(xí)的過程進行監(jiān)督,從而減少機器學(xué)習(xí)算法,特別是文本分類算法對人工標(biāo)注數(shù)據(jù)的依賴。 為了達到這樣的目的,本文從兩個角度來解決問題。第一是設(shè)計知識型數(shù)據(jù)的獲取算法,第二是設(shè)計知識型數(shù)據(jù)進行監(jiān)督學(xué)習(xí)的算法。 對于知識型數(shù)據(jù)獲取的研究算法,本文研究如何將平面的,沒有任何額外信息的網(wǎng)頁數(shù)據(jù)進行自動標(biāo)注,從而使得其成為知識型數(shù)據(jù)。

3、本文的研究思路是依照網(wǎng)絡(luò)上大量存在的層次結(jié)構(gòu),對網(wǎng)頁數(shù)據(jù)進行自動分類。研究的難點是,待選擇的類的數(shù)量非常龐大,傳統(tǒng)的機器學(xué)習(xí)和分類算法無法取得很好的效果。與此同時,基于知識型的算法要求很高的效率,對于算法的設(shè)計有很大的限制。本文在這方面取得了一定的突破。本文注意到樸素貝葉斯分類器具有速度快,易實現(xiàn),通用性強等在當(dāng)前問題中非常需要的特性。雖然傳統(tǒng)樸素貝葉斯分類器的效果非常差,通過深入挖掘樸素貝葉斯分類器在大規(guī)模類空間的特性,找到了樸素貝葉

4、斯分類器存在的兩個嚴(yán)重問題,通過修正這些問題,使得樸素貝葉斯分類器的效果得到了大幅度的提升。從而能夠提供可靠的知識型數(shù)據(jù)。 對于設(shè)計知識型數(shù)據(jù)進行監(jiān)督學(xué)習(xí)的算法,本文研究如何利用帶有類標(biāo)信息的知識型數(shù)據(jù),來取代文檔分類中的訓(xùn)練集,達到相當(dāng)于有訓(xùn)練集的學(xué)習(xí)效果。研究的難點是互聯(lián)網(wǎng)知識型數(shù)據(jù)涵蓋大量的語義信息,而待分類的文本的語義信息比較集中。為了克服這樣一個差距,本文設(shè)計了一個兩階段風(fēng)險最優(yōu)化算法。在第一階段中,該算法生成對于待分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論