基于GMM和高層信息特征的文本無(wú)關(guān)說(shuō)話人識(shí)別研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-09 格式：pdf 頁(yè)數(shù)：106 大?。?.92MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

基于GMM和高層信息特征的文本無(wú)關(guān)說(shuō)話人識(shí)別研究.pdf_第1頁(yè)

已閱讀1頁(yè)，還剩105頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、為了考察和衡量文本無(wú)關(guān)的說(shuō)話人識(shí)別的最新研究發(fā)展?fàn)顩r，美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)署(NIST)自1996年起開(kāi)始舉辦說(shuō)話人識(shí)別評(píng)測(cè)(SRE)。NIST說(shuō)話人評(píng)測(cè)代表了了說(shuō)話人識(shí)別領(lǐng)域的最先進(jìn)水平，NIST設(shè)立了多項(xiàng)任務(wù)，探索和研究不同語(yǔ)音條件下的研究方法，并為各個(gè)項(xiàng)目提供統(tǒng)一的電話語(yǔ)音數(shù)據(jù)(多通道、多環(huán)境、說(shuō)話人規(guī)模大)、測(cè)試平臺(tái)、評(píng)測(cè)規(guī)則，以及評(píng)估標(biāo)準(zhǔn)。其中，采用長(zhǎng)語(yǔ)音的說(shuō)話人識(shí)別項(xiàng)目旨在利用語(yǔ)音信號(hào)中的高層次信息用于文本無(wú)關(guān)的說(shuō)話人識(shí)別的研

2、究，近年來(lái)，已經(jīng)成為國(guó)外一些著名機(jī)構(gòu)的研究熱點(diǎn)。語(yǔ)音中的高層次信息往往是與文本內(nèi)容有關(guān)的，因而如何從語(yǔ)音中提取出用于文本無(wú)關(guān)說(shuō)話人識(shí)別的高層次信息特征便成為當(dāng)前研究的重點(diǎn)。本文對(duì)韻律、發(fā)聲特點(diǎn)等高層次特征信息的提取方法及其用于文本無(wú)關(guān)的說(shuō)話人識(shí)別進(jìn)行了深入研究。針對(duì)文本無(wú)關(guān)的說(shuō)話人識(shí)別的特點(diǎn)，本文采用了概率統(tǒng)計(jì)模型的識(shí)別方法，將從與文木有關(guān)內(nèi)容的語(yǔ)音韻律(X～t，X為語(yǔ)音特征)中的信息特征看作由韻律特征基元(稱(chēng)作超音

3、段韻律信息特征)所組成的，通過(guò)對(duì)韻律特征基元分布的概率統(tǒng)計(jì)描述來(lái)實(shí)現(xiàn)說(shuō)話人辨識(shí)。本文提出了一種基于多尺度小波分析從韻律中提取超音段韻律特征的方法，分別用于音源FO～t和聲道MFCC～t的超音段韻律特征的提取。由描述緩變信息的概貌系數(shù)和描述快變信息的細(xì)節(jié)系數(shù)組成音源FO～t的六維超音段韻律特征參數(shù)PFO；而對(duì)于高維的聲道MFCC～t，由于其各維參數(shù)的近似不相關(guān)和聲道緩變的特點(diǎn)，從MFCC各維分別提取概貌系數(shù)組成聲道超音段韻律特征

4、參數(shù)PMFCC。在NIST068side數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)表明，PFO與短時(shí)FO相比，系統(tǒng)EER相對(duì)降低了23.66％，PMFCC達(dá)到了與短時(shí)倒譜參數(shù)MFCC相當(dāng)?shù)男阅堋?鑒于音源參數(shù)與聲道參數(shù)的互補(bǔ)性，本文研究了音源超音段韻律參數(shù)PFO與聲道超音段韻律參數(shù)PMFCC的組合參數(shù)PMFCCFO。PMFCCFO較MFCC在NIST068side數(shù)據(jù)庫(kù)EER相對(duì)降低40％，在微軟數(shù)據(jù)庫(kù)的實(shí)驗(yàn)則表明了PMFCCFO有較好的噪聲魯棒性。采用P

5、MFCCFO與短時(shí)參數(shù)MFCC的子系統(tǒng)輸出評(píng)分線性加權(quán)后，可進(jìn)一步提高系統(tǒng)的識(shí)別性能。NIST083side評(píng)測(cè)任務(wù)中，采用了基于PMFCCFO的子系統(tǒng)與采用短時(shí)參數(shù)子系統(tǒng)的等權(quán)重輸出評(píng)分加權(quán)，在電話語(yǔ)音條件下取得了最佳的DET曲線。本文還對(duì)從短時(shí)倒譜中間接提取發(fā)聲位置特征用于文本無(wú)關(guān)說(shuō)話人識(shí)別進(jìn)行了研究，提出了一種基于特征空間映射的發(fā)聲位置特征的提取方法，利用大量說(shuō)話人的標(biāo)準(zhǔn)語(yǔ)音訓(xùn)練得到的MLP作為所有人共享的特征映射網(wǎng)絡(luò)，

眾賞文庫(kù)> 全部分類(lèi)> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于GMM和高層信息特征的文本無(wú)關(guān)說(shuō)話人識(shí)別研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于GMM和高層信息特征的文本無(wú)關(guān)說(shuō)話人識(shí)別研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載