版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、命名實體識別的目標是識別文本中事物的名稱并分類。傳統(tǒng)命名實體識別任務(wù)主要識別人名、地名和機構(gòu)名等。但由于傳統(tǒng)命名實體的類別有限,不能完全滿足自然語言處理領(lǐng)域其他任務(wù)的需求。因此本文重點研究開放域命名實體的識別和層次化類別獲取,旨在為信息抽取、信息檢索、開放域問答、機器翻譯等自然語言處理任務(wù)提供支持。
開放域命名實體相對傳統(tǒng)命名實體有兩個主要特點:類別更多且不固定;類別更細且有層次。這導致開放域命名實體的識別面臨無法標注訓練語料
2、、同一個命名實體屬于多個不同粒度的類別等挑戰(zhàn),無法應(yīng)用傳統(tǒng)的序列標注的方法來解決。本文將開放域命名實體識別任務(wù)分為兩個方面:邊界識別和類別獲取。邊界識別面臨的主要問題是訓練語料的構(gòu)建以及有效利用。類別獲取面臨的主要問題是類別體系不可預(yù)先確定以及類別的層次化。本文的研究工作旨在解決上述兩個問題,主要研究內(nèi)容包括以下四個方面:
第一部分為基于英漢雙語平行語料自動構(gòu)建漢語命名實體識別語料。命名實體識別訓練語料不足會導致的領(lǐng)域過擬合問
3、題,而人工標注的成本太高,本文使用雙語平行語料將英語命名實體自動識別的標記映射到漢語端,從而實現(xiàn)漢語命名實體語料的自動標注。然后進一步使用多種策略綜合篩選高質(zhì)量的實例作為訓練語料。實驗證明這種方法可以自動構(gòu)建大量的漢語命名實體識別訓練語料,在該語料上訓練的模型與人工標注語料上訓練的模型性能接近,并且通過和人工標注的語料融合可以提高命名實體識別的準確率和召回率。此外,我們還詳細分析了平行語料規(guī)模和來源對命名實體識別效果的影響。
4、第二部分為基于自學習的開放域命名實體邊界識別。漢語開放域命名實體識別尚缺乏訓練語料,而命名實體開放的類型導致人工標注語料的代價太大。本文首先基于雙語平行語料和英語句法分析器自動標注了一個漢語專有名詞語料,另外基于漢語依存樹庫生成了一個名詞復合短語語料,然后使用自學習的方法將這兩部分語料融合形成命名實體邊界識別語料,同時訓練邊界識別模型。此外,本文還針對開放域命名實體的特點,提出了動詞依存關(guān)系、命名實體構(gòu)成模式等更加豐富的特征。實驗結(jié)果表
5、明自學習的方法可以提高邊界識別的準確率和召回率,其中使用的特征對于提高邊界識別效果皆有幫助。
第三部分為基于多信息源的開放域命名實體類別獲取。命名實體的上位詞通常表明了其類別信息。本文在Web搜索結(jié)果、在線百科和命名實體字面等多個信息源中挖掘命名實體的上位詞候選,然后設(shè)計了一組豐富的特征并在一個自動構(gòu)建的語料上訓練模型對候選進行排序,從而獲得了命名實體的類別。實驗結(jié)果表明多個信息來源可以相互補充和驗證,有利于命名實體類別的挖掘
6、和排序。此外,本文還對上位詞排序的特征進行了評測。
第四部分為基于詞匯分布表示的開放域命名實體類別層次化。一個命名實體可能屬于多個不同粒度的類別,這些類別之間通常存在上下位關(guān)系。為此,在獲取命名實體類別的基礎(chǔ)上,本文進一步挖掘類別之間的上下位層次化關(guān)系。本文利用詞匯的分布表示,學習從下位詞到上位詞的分段映射矩陣,來判斷給定的詞對是否具有上下位關(guān)系。實驗證明本文采用的基于詞匯分布表示的方法對于開放域命名實體類別的層次化是行之有效
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 命名實體識別研究及其應(yīng)用.pdf
- 命名實體識別及其關(guān)系抽取.pdf
- 基于條件隨機域的中文命名實體識別研究.pdf
- 2004命名實體識別評測大綱
- 中文命名實體識別及其關(guān)系抽取研究.pdf
- 半監(jiān)督的命名實體識別.pdf
- 2004命名實體識別評測大綱
- 中文命名實體識別的研究.pdf
- 中文命名實體識別算法研究.pdf
- 日漢雙語命名實體對獲取方法及其應(yīng)用研究.pdf
- 面向信息抽取的命名實體識別與模塊獲取技術(shù)研究.pdf
- 基于Stacking框架的命名實體識別.pdf
- 中文命名實體識別及評測方法.pdf
- 基于規(guī)則的命名實體識別研究.pdf
- 中文命名實體識別方法研究.pdf
- 基于條件隨機場的命名實體識別.pdf
- 音樂命名實體識別技術(shù)研究.pdf
- 基于CRF的英文命名實體識別研究.pdf
- 中文電子病歷命名實體識別研究.pdf
- 中文命名實體識別與歧義消解研究.pdf
評論
0/150
提交評論