基于循環(huán)神經網絡的蒙古文語言模型研究.pdf_第1頁
已閱讀1頁,還剩55頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、語言模型是自然語言處理任務中的重要組成部分。其中,N-gram語言模型是目前應用最為廣泛的統(tǒng)計語言模型。近年來,隨著深度學習技術的不斷發(fā)展,深度神經網絡模型逐漸被應用于語音識別中,它為研究者帶來新一輪的研究熱潮。神經網絡語言模型是其中比較重要的研究方向之一。
  蒙古文語言模型對于蒙古語語音識別、蒙古文信息檢索和蒙古文機器翻譯等蒙古文信息處理技術的研究起著至關重要的作用。現(xiàn)階段,神經網絡語言模型已被廣泛應用于英文和漢文中,但是神經

2、網絡語言模型在蒙古文中的使用還比較少。本文主要針對蒙古文神經網絡語言模型進行研究。
  蒙古文是一種在國際上有廣泛影響的語言文字。然而,在蒙古文文本語料中,存在大量的顯現(xiàn)形式相同但編碼不同的單詞,這給蒙古文單詞的統(tǒng)計和檢索等帶來了很大困難。
  本文著重解決顯現(xiàn)形式相同但編碼不同蒙古文單詞的統(tǒng)計和檢索問題,從而提高蒙古文語言模型的性能。首先,提出了采用中間字符對蒙古文顯現(xiàn)形式相同但編碼不同的字母進行合并表示的方法;接著,分別

3、建立了基于拉丁字符的N-gram語言模型與基于中間字符的N-gram語言模型,以及基于拉丁字符的快速循環(huán)神經網絡語言模型(Faster Recurrent Neural Network Language Model,F(xiàn)RNNLM)與基于中間字符的FRNNLM;然后,實現(xiàn)了N-gram語言模型和FRNNLM融合的方法,得到了性能更好的語言模型;最后,用困惑度評價了蒙古文語言模型的性能,并將其應用到蒙古語語音識別中進行詞錯誤率(Word E

4、rror Rate,WER)的比較。實驗結果表明,基于中間字符的蒙古文文本語料的詞匯量比基于拉丁字符的語料平均減少了41%;基于中間字符的語言模型(3-gram、FRNNLM)比相應基于拉丁字符的語言模型在困惑度方面下降了近40%,提高了蒙古文語言模型的性能。并且在蒙古語語音識別中,基于中間字符的語言模型(3-gram、FRNNLM、3-gram+FRNNLM)比相應基于拉丁字符的語言模型在WER方面下降了近20%;3-gram+FRN

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論