面向蒙古語的語音識別聲學建模研究.pdf_第1頁
已閱讀1頁,還剩119頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、自動語音識別是具有巨大應用價值和廣闊應用前景的人機交互技術,而聲學建模則是創(chuàng)建語音識別系統(tǒng)的關鍵環(huán)節(jié)與核心技術,也是語音識別研究的重點和熱點之一。本文對蒙古語語音識別聲學建模相關的若干問題進行了深入的探索和研究。目前,在國際信息化浪潮的推動下,蒙古族自治區(qū)域正在快速步入信息化社會。在這種歷史背景和條件下,開展本文的研究工作,不僅具有重要的學術價值,而且具有積極深遠的社會現(xiàn)實意義,它必將有益于廣大蒙古族同胞生活、學習、工作自動化程度的提高

2、,必將有益于蒙古族自治區(qū)域信息化水平的提升。
  本文研究工作在蒙古語語音識別聲學建模的模型選擇、相關支持技術以及參數(shù)估計等三個基本問題方面均有所涉及,具體研究內(nèi)容和創(chuàng)新點如下:
  1.蒙古語聲學模型拓撲結構優(yōu)化
  模型選擇方面,針對當前創(chuàng)建蒙古語語音識別系統(tǒng)時只能采用經(jīng)驗式或啟發(fā)式方法選擇較大建模對象(指其讀音由兩個或兩個以上的音子構成的建模對象)聲學模型拓撲結構的情形,本文提出了分別基于標準遺傳算法和標準粒群優(yōu)

3、化算法的兩個蒙古語較大建模對象聲學模型拓撲結構優(yōu)化算法,并給出了算法實現(xiàn)相關問題的解決方案和高斯核非均勻分配系統(tǒng)的訓練策略。與以往的進化方法在其它語言語音識別領域中的類似應用相比,本文算法都具備同時優(yōu)化模型狀態(tài)數(shù)與各狀態(tài)高斯核數(shù)量、摒棄高斯核均勻分配以及自動搜索等優(yōu)點。在驗證和應用上述模型拓撲優(yōu)化算法的實驗中,與分別使用一種傳統(tǒng)方法選擇蒙古語較大建模對象聲學模型拓撲結構的兩組基線系統(tǒng)相比,利用本文算法選擇蒙古語較大建模對象聲學模型拓撲結

4、構的所有語音識別系統(tǒng),其識別性能均占顯著優(yōu)勢;相對于表現(xiàn)最好的基線系統(tǒng),分別使用本文提出的一種算法的兩組拓撲優(yōu)化系統(tǒng),其詞準確率的提升幅度分別達到了11.52個百分點和10.42個百分點。
  2.蒙古語聲學模型狀態(tài)聚類:問題集設計
  建模相關支持技術方面,針對目前蒙古語語音識別界亟待設計出合理、完善的蒙古語問題集以有效支持聲學建模過程中基于決策樹的參數(shù)綁定方法的情形,本文討論了蒙古語問題集設計中的原則、音子集的選擇、音素

5、表的完善、復合元音的歸類、松與緊概念的應用等關鍵問題的解決方案,給出了一個蒙古語標準音問題集,指出了該問題集相對于已有蒙古語問題集的優(yōu)越性。決策樹方法與數(shù)據(jù)驅(qū)動方法的多次對比實驗中,利用本文蒙古語問題集的前者每次都帶來了略高于后者的系統(tǒng)識別率,這說明本文的蒙古語問題集能夠有效支持基于決策樹的狀態(tài)聚類與綁定方法;問題集對比實驗中,本文給出的問題集的表現(xiàn)好于目前已公開發(fā)表的其它蒙古語問題集,這說明它的設計更加合理、更為完善。
  3.

6、蒙古語聲學模型區(qū)分性訓練
  模型參數(shù)估計方面,針對蒙古語口語中的眾多讀音相似的音子的相互誤識正在嚴重影響蒙古語語音識別系統(tǒng)的識別性能的現(xiàn)狀,本文將通過增強模型之間的區(qū)分度提高系統(tǒng)識別性能的區(qū)分性訓練技術首次應用在蒙古語語音識別領域中。具體地,將最大互信息、最小詞錯誤和最小音素錯誤等區(qū)分性訓練準則系統(tǒng)地應用在蒙古語聲學建模任務中,設計了應用方案,解決了訓練數(shù)據(jù)列表的自動調(diào)整、訓練語料外三音子模型的合成、文本文件的自動生成與處理等若

7、干技術問題,提出并實現(xiàn)了能夠直觀了解區(qū)分性訓練效果的音子級解碼和基于混淆矩陣的解碼結果對比方案,基于區(qū)分性訓練系統(tǒng)及其基線系統(tǒng)的混淆矩陣,發(fā)現(xiàn)和總結了蒙古語音子在語音識別過程中的元音和輔音之間很少發(fā)生誤識現(xiàn)象、弱短元音是元音與輔音相互誤識情況中的主要的元音音素、容易相互誤識的輔音只有有限的若干對等誤識規(guī)律。實驗結果表明,各種準則的區(qū)分性訓練均能使蒙古語語音識別系統(tǒng)的識別率得到較大幅度的提高,區(qū)分性訓練系統(tǒng)的詞準確率的提升幅度最高達到了6

8、.44個百分點。
  4.蒙古語聲學模型自適應訓練
  同樣在模型參數(shù)估計方面,針對基于眾多說話人語料創(chuàng)建的蒙古語非特定人語音識別系統(tǒng)在交付給特定說話人使用時識別率不理想的情形,本文將通過重估模型參數(shù)使系統(tǒng)聲學模型更具特定說話人特征的說話人自適應技術首次應用在蒙古語語音識別領域中。具體地,在設計應用方案并解決回歸類樹葉子結點數(shù)的設置等若干技術問題的基礎上,將最大似然線性回歸類算法和最大后驗概率類算法系統(tǒng)地應用在蒙古語聲學建模

9、任務中。此外,本文還探索了說話人自適應技術的更深層次的用途:對說話人自適應算法以及它們的有效組合在蒙古語聲學建模過程中的性別自適應效果進行了實驗驗證,并在利用說話人自適應算法進行蒙古語方言土語的自適應方面做了一些探索性的工作。實驗結果表明,各種參數(shù)變換的說話人自適應算法均能使蒙古語語音識別系統(tǒng)的識別率得到較大幅度的提高,它們帶來的詞準確率的提升幅度最高達到了32.75個百分點;說話人自適應技術在蒙古語聲學建模中具有很好的性別自適應效果,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論