基于最大熵模型特征選擇算法的中文分詞增量學習研究.pdf_第1頁
已閱讀1頁,還剩63頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著信息化社會的發(fā)展,網絡的不斷普及,中文信息處理技術的應用越來越廣泛。中文分詞技術作為中文信息處理技術的基礎,已經成為制約中文信息處理技術發(fā)展的一項關鍵和核心技術。目前,中文分詞方法主要有兩大類,一類是基于規(guī)則的方法,另一類是基于統(tǒng)計的方法,此外還有一些綜合方法和其它方法。雖然這些方法大大推動了中文分詞研究的發(fā)展,但在實際應用中,仍然面臨著以下三個常見問題:分詞規(guī)范問題、歧義問題、未登錄詞問題。
   目前,已經應用于中文分詞

2、技術的機器學習算法有簡單貝葉斯、最大熵、神經網絡、支持向量機、遺傳算法等,這些算法在中文分詞的應用中都有非常好的效果。但是,這些算法仍然難以應對與日俱增的數據規(guī)模。當出現新增的訓練數據樣本時,算法為了適應新的數據樣本,必須將所有的數據重新學習一遍,以建立新的計算模型。這樣,算法浪費了大量的時間和空間。因此,本文將最大熵模型特征選擇算法引入到中文分詞技術的研究中,以應對訓練語料庫規(guī)模的日益增大,適應增量學習的要求。
   本文所作

3、的主要工作如下:
   (1)研究增量學習的基本理論和基本算法。
   (2)研究信息論中條件最大熵的理論,改進最大熵模型的特征選擇算法以適應增量學習的要求。
   (3)研究交集型歧義和組合型歧義的特征模板的構建,并且利用構建的特征模板進行特征選擇,選出有代表性的、不冗余的有效特征。
   (4)利用模型進行交集型和組合型歧義字段消歧處理。
   (5)基于最大熵模型特征選擇算法構建一個中文分詞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論