基于統(tǒng)計(jì)模型與發(fā)音錯(cuò)誤檢測(cè)的語音合成方法研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-09 格式：pdf 頁數(shù)：107 大小：5.32MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

基于統(tǒng)計(jì)模型與發(fā)音錯(cuò)誤檢測(cè)的語音合成方法研究.pdf_第1頁

已閱讀1頁，還剩106頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、近十年來，隨著參數(shù)分析合成器性能的不斷提升以及統(tǒng)計(jì)建模方法的日益成熟，基于統(tǒng)計(jì)模型的統(tǒng)計(jì)建模方法以及基于統(tǒng)計(jì)模型的拼接語音合成方法逐漸發(fā)展起來。其中，基于隱馬爾科夫模型（HMM）的參數(shù)合成系統(tǒng)以及基于HMM模型的拼接語音合成方法被越來越多的研究人員關(guān)注起來。相比傳統(tǒng)的單元挑選拼接語音合成方法，基于HMM的參數(shù)合成方法具有構(gòu)建速度快，可懂度、流暢度高，需要的存貯空間小，音色等調(diào)整靈活等特點(diǎn)?；贖MM模型的拼接語音合成方法最近成為研究的熱

2、點(diǎn)，與傳統(tǒng)的單元挑選和拼接合成語音方法相比，基于HMM模型的拼接語音合成語音方法利用統(tǒng)計(jì)模型的似然值或者后驗(yàn)概率作為指導(dǎo)模型挑選的依據(jù)，提高了單元挑選的準(zhǔn)確性，減少了拼接語音合成中不連續(xù)的現(xiàn)象。
　　但是HMM 參數(shù)合成系統(tǒng)也有自身的缺點(diǎn)。由于采用最大似然準(zhǔn)則或者最小生成誤差等準(zhǔn)則由統(tǒng)計(jì)模型生成聲學(xué)參數(shù)，再由語音聲學(xué)參數(shù)通過語音合成器合成語音，其合成語音的自然度與拼接合成系統(tǒng)的合成語音相比有一定的差距，不如自然語音清晰。這主要

3、由三方面的原因造成：（1）語音分析/合成器的音質(zhì)損失；（2）HMM 統(tǒng)計(jì)建模的精確度不夠；（3）統(tǒng)計(jì)模型的過于平均化。
　　此外，由于如今對(duì)合成語音音質(zhì)和自然度的評(píng)價(jià)標(biāo)準(zhǔn)主要是基于主觀的MOS（Mean Opinion Score）得分，但是現(xiàn)今的基于統(tǒng)計(jì)模型的參數(shù)合成方法和基于代價(jià)的拼接合成方法都沒有直接將人的主觀聽感判斷作為語音合成系統(tǒng)構(gòu)建的依據(jù)，加入到語音系統(tǒng)的構(gòu)建過程中。
　　本文針對(duì)現(xiàn)有HMM參數(shù)合成系統(tǒng)建

4、模精確度不夠的問題，提出了對(duì)HMM參數(shù)合成系統(tǒng)音素時(shí)長模型進(jìn)行滿方差建模的方法。并且對(duì)頻譜聲學(xué)模型的聚類過程提出了基于最小交叉生成誤差的優(yōu)化方法。針對(duì)現(xiàn)有的語音合成方法沒有直接引入人的主觀聽感作為準(zhǔn)則的問題，利用機(jī)器輔助語言學(xué)習(xí)中發(fā)音錯(cuò)誤檢測(cè)的方法，提出了基于發(fā)音錯(cuò)誤檢測(cè)的語音合成方法，將人主觀判斷引入語音合成的方法中。
　　整個(gè)文章安排如下：
　　第一章是緒論，對(duì)現(xiàn)今的基于HMM 統(tǒng)計(jì)模型的參數(shù)語音合成方法作了介紹

5、。包括基本原理，框架，優(yōu)點(diǎn)以及不足。并且介紹了HMM 參數(shù)合成方法最近的改進(jìn)。
　　第二章介紹了對(duì)語音合成中的音素時(shí)長進(jìn)行滿方差建模的方法。由于在傳統(tǒng)的HMM 語音合成方法中，對(duì)音素時(shí)長模型建模采用對(duì)角方差HMM模型，在模型訓(xùn)練以及時(shí)長參數(shù)生成時(shí)沒有考慮音素時(shí)長HMM 狀態(tài)之間的聯(lián)系。本文針對(duì)這項(xiàng)不足提出了用滿方差HMM模型對(duì)語音音素的時(shí)長進(jìn)行建模的方法，包括模型聚類以及參數(shù)生成的方法。實(shí)驗(yàn)證明，與對(duì)角方差HMM模型相比，時(shí)長

6、滿方差建模提高了合成語音時(shí)長的自然度。
　　第三章針對(duì)傳統(tǒng)參數(shù)合成方法中對(duì)頻譜參數(shù)統(tǒng)計(jì)模型上下文聚類不精確的問題提出了基于最小交叉生成誤差的決策樹聚類優(yōu)化方法。針對(duì)傳統(tǒng)的基于MDL（最小描述距離）準(zhǔn)則的統(tǒng)計(jì)模型上下文相關(guān)決策樹聚類不夠精確的問題，本文結(jié)合交叉驗(yàn)證以及最小生成誤差準(zhǔn)則，提出了最小交叉生成誤差的準(zhǔn)則，提出了分兩步對(duì)決策樹模型聚類的規(guī)模進(jìn)行優(yōu)化的方法。實(shí)驗(yàn)證明經(jīng)過優(yōu)化后的參數(shù)合成系統(tǒng)的合成語音在自然度和音質(zhì)上有提升。

7、
　　在第四章中，由于現(xiàn)階段的合成語音方法沒有直接引入人的主觀聽感判斷，本文首次通過結(jié)合發(fā)音錯(cuò)誤檢測(cè)的方法將人的主觀聽感引入到語音合成的方法中，提出了基于發(fā)音錯(cuò)誤檢測(cè)的語音合成方法。在本章中，我們首先介紹了傳統(tǒng)機(jī)器輔助學(xué)習(xí)方法的基本原理，闡釋了將人對(duì)合成語音的主觀聽感評(píng)判反饋到合成語音系統(tǒng)構(gòu)建過程的必要性。并且結(jié)合機(jī)器輔助語言學(xué)習(xí)中發(fā)音錯(cuò)誤檢測(cè)的方法依次提出了合成語音音庫標(biāo)注自動(dòng)錯(cuò)誤檢測(cè)方法，合成語音發(fā)音錯(cuò)誤檢測(cè)方法，以及基于

8、發(fā)音錯(cuò)誤檢測(cè)的語音合成方法。穿插介紹了支持向量機(jī)（SVM）以及核Fisher區(qū)分性因子（KFD）分析的原理。主觀和客觀實(shí)驗(yàn)證明，合成語音音庫標(biāo)注自動(dòng)錯(cuò)誤檢測(cè)方法能有效的減少合成語音音庫中的標(biāo)注錯(cuò)誤。
　　合成語音發(fā)音錯(cuò)誤檢測(cè)方法能在一定程度上檢測(cè)合成語音中的發(fā)音錯(cuò)誤?；诎l(fā)音錯(cuò)誤檢測(cè)的語音合成方法的合成語音中的發(fā)音錯(cuò)誤更少，與傳統(tǒng)方法相比在整體自然度上有提升。
　　第五章介紹了Blizzard Challenge語音

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于統(tǒng)計(jì)模型與發(fā)音錯(cuò)誤檢測(cè)的語音合成方法研究.pdf

文檔簡介

溫馨提示

最新文檔

評(píng)論

基于統(tǒng)計(jì)模型與發(fā)音錯(cuò)誤檢測(cè)的語音合成方法研究.pdf

文檔簡介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載