漢語普通話發(fā)音質量自動評測方法研究.pdf_第1頁
已閱讀1頁,還剩156頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、發(fā)音質量自動評測(以下簡稱“評測”)是計算機輔助語言學習及口語考試中的核心技術問題,其研究成果對提高學習者學習的靈活性和滿意度,減少人工閱卷的主觀性和不穩(wěn)定性,降低投入成本,提高實效性,具有重要的理論意義和科學價值,應用前景廣闊。隨著國內(nèi)普通話的大力推廣和普及,以及國外漢語學習熱潮的快速興起,針對漢語普通話的評測技術實際需求強勁,且更具特色和挑戰(zhàn)性,有必要深入系統(tǒng)地研究。
  漢語是一種單音節(jié)聲調語言,每個音節(jié)包括聲母、韻母和聲調

2、三部分,音節(jié)間界限較分明,有鮮明的輕重音和兒化音。漢語音節(jié)的三元結構及音韻特點與英語語音差異較大,需要結合漢語特點,在表征、建模和計算等方面進行針對性研究和創(chuàng)造性方法改進。此外,現(xiàn)有主流評測方法在基本發(fā)音單元(聲韻母、聲調等)評測上的準確性還不夠理想,無法滿足精細評測任務和較高水平說話人評測任務的實際需求,需要在聲學建模和置信度計算等方面進行改進,以提高聲學模型的精度和評測模型的準確度。
  本文重點研究母語人群的漢語普通話評測方

3、法。在聲韻母評測方面,針對當前主流的發(fā)音良好度(Goodness of pronunciation,GOP)算法存在的切分不準、計算精度低、模型間區(qū)分性差等問題,提出一種基于音素混淆概率矩陣的評測方法。該方法通過計算音素混淆概率矩陣來構建每個音素的混淆音素集合,一方面利用混淆音素集合建立音素混淆限制識別網(wǎng)絡,提高音素段切分的準確性;另一方面,引入音素混淆先驗概率,把混淆音素集合作為后驗概率的計算空間,提高計算精度和模型間的區(qū)分性。為擴大

4、發(fā)音的評測范圍,提高聲學模型的覆蓋范圍,提出一種基于擴展發(fā)音空間的評測方法。該方法利用錯誤發(fā)音樣本數(shù)據(jù),擴展標準發(fā)音空間,對標準發(fā)音的各類發(fā)音錯誤進行精細建模,并在這個擴展后的發(fā)音空間內(nèi)進行后驗概率計算,計算更加準確和有效。同時,針對包含錯誤發(fā)音的數(shù)據(jù)獲取容易,但標注困難,且工作量巨大的問題,設計對錯誤發(fā)音樣本聚類的非監(jiān)督學習方法,以及發(fā)音模型的自動更新方法,來持續(xù)提高評測模型的準確性。鑒于上述方法都是單維置信度計算加閾值判斷還不夠魯棒

5、,提出一種基于系統(tǒng)融合的多維置信度的評測方法。該方法依次計算待評測語音段相對于其對應音素的混淆音素集合中所有音素的后驗概率和錯誤音素集合中所有音素的后驗概率,并把它們組合起來,形成一個多維置信度向量,作為一種新的評測特征,為各個音素分別訓練出不同發(fā)音質量的分類器,實現(xiàn)對聲韻母發(fā)音質量的再評測,人機相關系數(shù)達到0.893,超過了人工評測的平均水平。
  在聲調評測方面,針對聲調相關基頻特征的有效獲取和多層次利用,提出一種基于系統(tǒng)融合

6、的多維置信度的聲調評測方法。在語音幀層級上,把基頻特征及其一階、二階差分加入到39維梅爾倒譜系數(shù)中去,共42維,以聲母和帶調韻母為發(fā)音單元,采用嵌入式訓練方式,建立嵌入式聲調模型。在音節(jié)層級上,提取當前音節(jié)和其前面、后面音節(jié)的基頻特征及它們的統(tǒng)計特征,共12維,選擇高斯混合模型(Gaussian Mixture Model,GMM)做分類器,建立顯式聲調模型。把利用嵌入式聲調模型計算出的5種聲調的后驗概率和利用顯式聲調模型計算出的5種聲

7、調的后驗概率組合起來,形成一個10維的多維置信度向量,作為一種新的評測特征,為各個聲調分別訓練出不同發(fā)音質量的分類器,實現(xiàn)對聲調發(fā)音質量的再評測。實驗結果表明,上述方法有效融合兩種建模方式的互補性,同時利用長時語段和短時語段的特征信息,且不需要考慮閾值選取,具有更好的魯棒性和適應性,有效提高了聲調評測方法的準確性,人機相關系數(shù)達到0.899,超過了人工評測的平均水平。
  在漢語兒化音評測方面,針對國家普通話水平測試中對兒化音的考

8、評要求,提出一種基于分類思想的兒化音評測方法。深入分析兒化音的發(fā)音規(guī)律和特色,提取共振峰、發(fā)音置信度、時長等代表性特征,采用集成學習方式,改進傳統(tǒng)的AdaBoost算法,每次迭代時,同一基分類器會根據(jù)不同分類類別分別更新權值,在權值計算時增加一個與類別先驗概率和類別數(shù)目相關的正數(shù)項,大大降低算法對基分類器的精度要求,并特別適合數(shù)據(jù)分布不平衡的多類分類問題,實現(xiàn)對兒化音的發(fā)音質量狀況進行有效分類,分類效果明顯優(yōu)于傳統(tǒng)的AdaBoost集成

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論