面向漢語普通話文語轉換系統(tǒng)的中文文本智能化處理研究.pdf_第1頁
已閱讀1頁,還剩89頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、近年來,漢語普通話文語轉換系統(tǒng)的研究取得了長足的進展,但是還有許多理論和應用問題有待解決,計算機的合成語音在自然度上與人類的自然語音存在一定的距離。為此,不僅要研究如何利用漢語普通話語音數(shù)據(jù)庫拼接出高自然度的語音,而且還要從語言學方面研究中文文本,為后續(xù)的語音處理提供韻律信息和指導。本文的主要工作是面向文語轉換系統(tǒng)的中文文本智能化處理研究。本文首先研究了自動分詞所涉及的各方面技術,建立了分詞詞典和語料庫,采用了增字最大匹配算

2、法進行切分,制定了處理歧義字段用的知識庫,提出并建立了“多音字語料庫”用于解決多音字問題,最后利用姓名本身和出現(xiàn)環(huán)境的特點,提出了基于規(guī)則和統(tǒng)計相結合的漢語姓名識別算法,達到了理想的效果,總的精度達到了99%。在成功地實現(xiàn)自動分詞后,分析了漢語的詞語兼類現(xiàn)象和隱馬爾可夫模型理論,認為隱馬爾可夫模型在詞性自動標注上有著非常重要的應用價值,并成功地把它引入到自動詞性標注上。為了校正應用隱馬爾可夫模型產(chǎn)生的少量明顯錯誤和無法保證

3、正確標記的語料,提出了一個規(guī)則集,用于糾錯。開放和封閉測試表明該方法取得了相當好的結果。在韻律詞處理方面,提出了一種單字驅(qū)動的規(guī)則方法,即利用一些規(guī)則依據(jù)單字的詞性對單字進行向前或向后的歸并,從而減少合成語音中的單音節(jié)詞。在韻律詞內(nèi)部加較小的停頓,在韻律詞間的停頓可以適當加長,使合成語音體現(xiàn)出一定的韻律感。為了進行韻律短語的切分,提出了一個統(tǒng)計和規(guī)則相結合的方法。使用統(tǒng)計方法從已經(jīng)經(jīng)過人工標注的漢語語料庫中得到的韻律短語切

4、分點的邊界模式以及概率信息,對中文文本中的韻律短語切分點進行自動預測。對于統(tǒng)計方法預測出的長度較短的候選組塊,再利用規(guī)則及組塊的類型信息歸并為韻律短語。最后,在系統(tǒng)的實現(xiàn)過程中,發(fā)現(xiàn)語素這種詞性具有不確定性,導致韻律短語切分點預測的不合理,不利于韻律短語的統(tǒng)計和韻律短語邊界的預測。為此,修改了分詞詞典中有語素這個詞性出現(xiàn)的1字詞的詞性,使每一個詞都有了一個明確的詞性,再進行自動分詞和自動詞性標注,從而提高了韻律短語的切分準確

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論