基于深層神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征提取及其在LVCSR系統(tǒng)中的應(yīng)用.pdf_第1頁
已閱讀1頁,還剩99頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、近年來,深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的崛起在諸多研究領(lǐng)域都引起了強(qiáng)烈的反響,并越來越受到關(guān)注。在語音識別領(lǐng)域,DNN相關(guān)技術(shù)能夠使聲學(xué)模型的識別性能得到顯著性提升,已然成為新的研究熱點(diǎn)。DNN通常以兩種方式被有效地應(yīng)用到聲學(xué)建模當(dāng)中:1)與隱馬爾科夫模型(Hidden Markov Model,HMM)組成混合架構(gòu)模型DNN-HMM,代替高斯混合模型(Gaussian Mixture Model,GMM

2、)進(jìn)行狀態(tài)輸出概率的計(jì)算;2)作為前端的聲學(xué)特征提取器,為傳統(tǒng)的GMM-HMM聲學(xué)建模架構(gòu)提供更有效的聲學(xué)特征。本文將主要圍繞基于DNN的聲學(xué)特征提取及其在LVCSR系統(tǒng)中的應(yīng)用展開研究,包括Tandem特征(或叫作概率特征)提取和瓶頸(bottleneck)特征提取兩方面。
  首先,本文針對中文LVCSR系統(tǒng)提出了一種構(gòu)建音素建模單元集的方法。這里,音素建模單元集的構(gòu)建包括將傳統(tǒng)聲韻母建模單元集中的韻母細(xì)化到拼音音素級別、以一

3、些先驗(yàn)知識為指導(dǎo)對這些單元進(jìn)行調(diào)整并構(gòu)造相對應(yīng)的詞典,以及首次基于擴(kuò)展元音三角圖設(shè)計(jì)問題集。音素建模單元集的單元數(shù)目相對較少,顯得更為精簡,冗余度和重合性降低,音素單元之間的區(qū)分性增強(qiáng),在提取Tandem特征時可以有效的減少神經(jīng)網(wǎng)絡(luò)的輸出層節(jié)點(diǎn)數(shù)目,這樣既可以降低神經(jīng)網(wǎng)絡(luò)的復(fù)雜度,也更有利于Tandem特征的提取。實(shí)驗(yàn)表明,相比于聲韻母建模單元集,新的音素建模單元集在基線系統(tǒng)和Tandem特征提取兩方面都取得了較優(yōu)的識別性能。
 

4、 其次,本文搭建了基于DNN提取bottleneck特征的基線系統(tǒng),并結(jié)合一些啟發(fā)式的技術(shù)進(jìn)行了相應(yīng)的優(yōu)化。為了提取bottleneck特征,我們通常是將DNN中間隱層的節(jié)點(diǎn)數(shù)設(shè)置成一個較小的數(shù)值(往往與基礎(chǔ)MFCC或PLP特征維度一致),這個隱層就被形象地稱作為bottleneck層,而這種具有特殊結(jié)構(gòu)的DNN被稱作為bottleneck DNN,bottleneck層的輸出就是所期望得到的基線bottleneck特征。實(shí)驗(yàn)表明,通過

5、引入一些啟發(fā)式的技術(shù),比如利用線性變換技術(shù)PCA去相關(guān)、一階差分和二階差分系數(shù)、在解碼過程中使用聲學(xué)規(guī)整因子重新調(diào)整聲學(xué)模型得分和語言模型得分之間的相對重要性等,bottleneck特征取得了較為顯著的性能提升,甚至能與DNN-HMM混合架構(gòu)模型的性能相比擬。其中,引入聲學(xué)規(guī)整因子尤為重要。
  第三,本文提出了兩種DNN非相干訓(xùn)練(Incoherent Training)算法,即最小化bottleneck層權(quán)重矩陣的相干性和最小

6、化每個mini-batch中數(shù)據(jù)的相關(guān)系數(shù)。算法通過在DNN訓(xùn)練的原始目標(biāo)函數(shù)上增添歸整項(xiàng),使得bottleneck特征各維之間的相關(guān)性能夠在DNN的訓(xùn)練過程中較為顯式地被直接控制并被自動去除,以便于更好地用于后續(xù)對角化GMM-HMM的建模。實(shí)驗(yàn)結(jié)果表明,兩種非相干訓(xùn)練算法都取得了一定的效果,使得基于bottleneck特征的GMM-HMM模型在識別性能上超越了DNN-HMM。
  最后,本文引入序貫區(qū)分性訓(xùn)練(Sequentia

7、l Discriminative Training,SDT)算法對bottleneck DNN進(jìn)行優(yōu)化,從而得到性能更好的bottleneck特征。SDT算法在GMM-HMM建模架構(gòu)中已經(jīng)取得了卓越的效果,其目標(biāo)函數(shù)中包含的語音幀之間的序貫信息對于語音識別問題至關(guān)重要,而這恰恰是傳統(tǒng)的DNN訓(xùn)練算法(主要是基于幀分類的交叉熵算法)所缺少的,因此,我們借助SDT算法來對DNN參數(shù)進(jìn)一步優(yōu)化,并且采用了兩種新的bottleneckDNN結(jié)構(gòu)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論