基于n-最短路徑方法的中文詞語粗分模型_第1頁
已閱讀1頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、基于層疊隱馬模型的漢語詞法分析?劉群13張華平12俞鴻魁1程學旗11中國科學院計算技術研究所北京1000802中國科學院研究生院北京1000393北京大學計算語言學研究所北京100871Email:liuqunzhanghpyuhongkuicxq@ict.摘要:本文提出了一種基于層疊隱馬模型的漢語詞法分析方法,旨在將漢語分詞、詞性標注、切分排歧和未登錄詞識別集成到一個完整的理論框架中。在分詞方面,采取的是基于類的隱馬模型,在這層隱馬模

2、型中,未登錄詞和詞典中收錄的普通詞一樣處理。未登錄詞識別引入了角色HMM:Viterbi算法標注出全局最優(yōu)的角色序列,然后在角色序列的基礎上,識別出未登錄詞,并計算出真實的可信度。在切分排歧方面,作者提出了一種基于N最短路徑的策略,即:在早期階段召回N個最佳結果作為候選集,目的是覆蓋盡可能多的歧義字段,最終的結果會在未登錄詞識別和詞性標注之后,從N個最有潛力的候選結果中選優(yōu)得到。不同層面的實驗表明,層疊隱馬模型的各個層面對漢語詞法分析都

3、發(fā)揮了積極的作用。作者實現(xiàn)了基于層疊隱馬模型的漢語詞法分析系統(tǒng)ICTCLAS,該系統(tǒng)在2002年的973專家組評測中獲得第一名,在2003年漢語特別興趣研究組(theACLSpecialInterestGrouponChineseLanguageProcessingSIGHAN)組織的第一屆國際漢語分詞大賽中綜合得分獲得兩項第一名、一項第二名。這表明:ICTCLAS是目前最好的漢語詞法分析系統(tǒng)之一,層疊隱馬模型能夠解決好漢語詞法問題。關

4、鍵詞:漢語詞法分析分詞詞性標注未登錄詞識別層疊隱馬模型ICTCLAS中圖法分類號:TP391.2文獻標識碼:AChineseLexicalAnalysisUsingCadedHiddenMarkovModelLIUQun13ZHANGHuaPing12YUHongkui1CHENGXueQi11InstituteofComputingTechnologyTheChineseAcademyofSciencesBeijing100080CH

5、INA2GraduateSchooloftheChineseAcademyofSciencesBeijing100039CHINA3Inst.ofComputationalLinguisticsPekingUniversityBeijing100871CHINAEmail:liuqunzhanghpyuhongkuicxq@ict.Abstract:ThispaperpresentsanapproachfChineselexicalan

6、alysisusingCadedhiddenMarkovmodel(CHMM)whichaimstoincpateChinesewdsegmentationPartOfSpeechtaggingdisambiguationunknownwdsrecognitionintoanintegratedtheeticalframe.AclassbasedHMMisappliedinwdsegmentationinthismodelunknown

7、wdsaretreatedinthesamewayascommonwdslistedinthelexicon.UnknownwdsarerecognizedwithreliabilityonrolessequencetaggedusingViterbialgithminrolesHMM.Asfdisambiguationtheauthsbringfthannshtestpathstrategythatintheearlystageres

8、ervesthetopNsegmentationresultsascidatescoversmeambiguity.Variousexperimentsshowthat本文得到國家重點基礎研究項目(G19980305074;G1998030510)和計算所領域前沿青年基金項目2002618023資助因此使用的模型和方法都沒有貫徹到底,缺乏統(tǒng)一的處理算法,對切分結果也缺乏統(tǒng)一的評估體系。最終導致分詞的準確率在開放測試的條件下并不像宣稱的那

9、樣理想,處理含有未登錄詞、歧義字段的真實文本時,效果更是不盡人意。本文提出了一種基于層疊隱馬模型的方法,旨在將漢語分詞、切分排歧、未登錄詞識別、詞性標注等詞法分析任務融合到一個相對統(tǒng)一的理論模型中。首先,在預處理的階段,采取N最短路徑粗分方法,快速的得到能覆蓋歧義的最佳N個粗切分結果;隨后,在粗分結果集上,采用底層隱馬模型識別出普通無嵌套的人名、地名,并依次采取高層隱馬模型識別出嵌套了人名、地名的復雜地名和機構名;然后將識別出的未登錄詞

10、以科學計算出來的概率加入到基于類的切分隱馬模型中,未登錄詞與歧義均不作為特例,與普通詞一起參與各種候選結果的競爭。最后在全局最優(yōu)的分詞結果上進行詞性的隱馬標注。該方法已經(jīng)應用到了中科院計算所漢語詞法分析系統(tǒng)ICTCLAS中,取得了較好的分詞和標注效果。ICTCLAS在973專家組機器翻譯第二階段的評測和2003年5月SIGHAN舉辦的第一屆漢語分詞大賽中,取得了不俗的成績,是目前最好的漢語詞法分析系統(tǒng)之一。本文第二節(jié)將概述層疊隱馬模型和

11、漢語詞法分析的總體框架,隨后介紹基于類的切分隱馬模型;然后分別敘述基于角色隱馬模型的未登錄詞識別方法,以及切分排岐的N最短路徑粗切分策略,最后給出各種條件下的對比測試結果,以及國家973開放評測和國際分詞大賽的測試結果,并給出簡單分析。2層疊隱馬模型和漢語詞法分析2.1層疊隱馬模型概述隱馬模型(HiddenMarkovModelHMM)[26]是經(jīng)典的描述隨機過程的統(tǒng)計方法,在自然語言處理中得到了廣泛的應用。然而,相對于復雜的自然語言現(xiàn)

12、象來說,傳統(tǒng)的HMM仍然略顯簡單,為此,我們需要采用多個層次的隱馬模型對漢語詞法分析中遇到的不同情況進行分別處理。文獻[27]提出的層次隱馬模型(HierarchicalHiddenMarkovModel,簡稱HHMM)的思想。在HHMM中,有多個狀態(tài)層和一個輸出層。每一個上一層狀態(tài)都對應于若干個下一層的子狀態(tài),而每個狀態(tài)的子狀態(tài)的分布都是不同的,由一個隸屬于該狀態(tài)的初始子狀態(tài)概率矩陣和子狀態(tài)轉移概率矩陣所決定。最底層狀態(tài)通過一個輸出概

13、率矩陣輸出到觀察值。HHMM實際上是一種不同于HMM的更復雜的數(shù)學模型,并且具有比HMM更強的表達能力,不過使用起來時空開銷也比較大。HHMM的解碼問題求解的時間復雜度是O(NT3),而HMM的解碼問題求解的時間復雜度只有O(NT),與句子長度成線性關系,速度非??臁1疚牟捎玫囊彩且环N多層隱馬爾可夫模型,稱為層疊隱馬爾可夫模型(CadedHiddenMarkovModel,簡稱CHMM)。不同于HHMM的是,CHMM實際上是若干個層次的

14、簡單HMM的組合,各層隱馬爾可夫模型之間以下幾種方式互相關聯(lián),形成一種緊密的耦合關系:各層HMM之間共享一個切分詞圖作為公共數(shù)據(jù)結構;每一層隱馬爾可夫模型都采用NBest策略,將產(chǎn)生的最好的若干個結果送到詞圖中供更高層次的模型使用;低層的HMM在向高層的HMM提供數(shù)據(jù)的同時,也為這些數(shù)據(jù)的參數(shù)估計提供支持。整個系統(tǒng)的時間復雜度與HMM相同,仍然是O(NT)。所有各層隱馬模型都采用《人民日報》標注語料庫作為訓練語料庫,通過對該語料庫進行不

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論