中文短文本命名實體識別方法與應用研究.pdf_第1頁
已閱讀1頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著互聯(lián)網(wǎng)的高速發(fā)展,以短文本形式出現(xiàn)的信息呈現(xiàn)爆炸式的增長,比如在線即時聊天信息、手機簡訊、微博、短文本評論及電子商務網(wǎng)站中的產(chǎn)品標題等。在這種趨勢下就給短文本信息智能處理提供了廣闊的應用空間,而這些短文本都有一些共同的特點,一般文本的長度小于160字符從而比較短,同時信息概念描述有限。命名實體識別是作為信息自動處理的最為基礎的關鍵技術之一,同時是文本分類預處理分詞階段不可或缺的組成部分。
   針對短文本的中文組織名識別屬于

2、命名實體識別范疇,組織名作為一種復雜的命名實體類型,在短文本中它具有長度不穩(wěn)定、結構無序及處處存在簡寫和略寫的特點,還常常與人名地名出現(xiàn)組合嵌套的情況,所以業(yè)內對它的識別效果目前還不夠理想。
   本文提出了一種基于實體對關系庫的中文短文本組織名識別方法。其主要思想分為三步:第一步,利用維基百科(Wikipedia)的結構特點提取實體對關系庫。第二步,對實體對關系庫上下文進行向量化并建立向量空間模型。第三步,利用相似度比較的方法

3、并結合隱馬爾科夫模型命名實體識別方法及搜索引擎重構方法,最終識別組織機構名。經(jīng)實驗,本方法召回率達到了58.49%,F(xiàn)1值達到了67.39%,較隱馬爾科夫模型分別提高了13.6和9.19個百分點,實驗證明本方法是有效的。
   針對電子商務領域內的產(chǎn)品標題短文本分類,本文對產(chǎn)品標題的文本特點及類別特點進行深入的研究和分析,在分類的文本預處理分詞階段后引入命名實體識別方法,采用一種基于規(guī)則和樸素貝葉斯分類(Naive Bayes)

4、相結合的文本分類方法。本方法分為二步:第一步,首先通過分析商務信息產(chǎn)品標題的文本及類別特點,提取類別的特征詞形成一個規(guī)則特征表,該表每個類都對應一個或多個代表性的特征,然后利用特征規(guī)則表對測試文本進行分類。如果測試文本包含某個類的特征,將置信度置為1,然后將測試文本分到特征對應的類別,否則將將置信度置為0。第二步:將上一步置信度置為0的文本,再通過貝葉斯分類器進行重分類。本文采用13個類別,經(jīng)過實驗,取得了理想的預期效果,在準確率、召回

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論