噪聲環(huán)境下說話人識(shí)別的研究.pdf_第1頁
已閱讀1頁,還剩100頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、作為一種基于生物特征信息的身份識(shí)別方法,說話人識(shí)別通過語音來識(shí)別說話人的身份,說話人識(shí)別在電子商務(wù)、消費(fèi)、銀行等遠(yuǎn)程客戶服務(wù)的身份認(rèn)證、軍事安全領(lǐng)域的說話人身份自動(dòng)檢測(cè)和認(rèn)證中具有極大的應(yīng)用價(jià)值和廣泛的應(yīng)用前景,是當(dāng)今語音信號(hào)處理和生物特征信息檢測(cè)和識(shí)別領(lǐng)域的重要研究方向。 由于說話人個(gè)性以及實(shí)際應(yīng)用環(huán)境的復(fù)雜性,說話人識(shí)別技術(shù)雖然取得了一定的進(jìn)步,其瓶頸效應(yīng)也逐步顯現(xiàn),進(jìn)一步提高比較困難,離真正的實(shí)際應(yīng)用還有一段距離。

2、 本文從端點(diǎn)檢測(cè)、語音增強(qiáng)、特征提取、后端處理等角度對(duì)說話人識(shí)別進(jìn)行了研究,取得了一些研究成果。 本文首先回顧了說話人識(shí)別的研究發(fā)展歷程,指出了目前說話人識(shí)別研究的熱點(diǎn)和難點(diǎn)。 語音信號(hào)具有混沌的特征,分形維理論是描述混沌信號(hào)的一種手段,本文從分形維的定義出發(fā),提出了一種新的基于波形的算法(Improvement Fractal Dimension algorithm Based on Wave:IBW-FD)。該算法只

3、需計(jì)算波形長(zhǎng)度,與盒維、Katz維相比,計(jì)算更加簡(jiǎn)單。通過分形布朗曲線驗(yàn)證了該算法比盒維和Katz維具有更高的精確度,在高斯白噪聲和三種非平穩(wěn)噪聲下該算法與盒維、Katz維相比抗干擾能力更強(qiáng)。 端點(diǎn)檢測(cè)是說話人識(shí)別系統(tǒng)的第一步,一直是語音信號(hào)處理研究的熱點(diǎn)。本文根據(jù)語音和噪聲的特點(diǎn),將前面提出的IBW分形維引入端點(diǎn)檢測(cè),將之與能量的方法相結(jié)合,提出了一種基于能量和分維的聯(lián)合端點(diǎn)檢測(cè)方法(VAD way ofunite energ

4、y and fractal dimension:UEFD)。 尋找新的有效的說話人識(shí)別特征參數(shù)和已有特征參數(shù)的有效組合是說話人識(shí)別參數(shù)提取研究的熱點(diǎn)。本文將前面提出的IBW分形維與MFCC特征參數(shù)有機(jī)結(jié)合,作為說話人識(shí)別系統(tǒng)的混合特征參數(shù)。通過實(shí)驗(yàn)發(fā)現(xiàn),新的混合特征具有一定優(yōu)勢(shì)。 基于離散余弦變換的語音增強(qiáng)方法是目前國(guó)內(nèi)外語音增強(qiáng)領(lǐng)域內(nèi)研究的熱點(diǎn),而對(duì)于離散分?jǐn)?shù)余弦變換的研究國(guó)際上還比較少,而國(guó)內(nèi)外對(duì)于離散分?jǐn)?shù)余弦變換的

5、應(yīng)用研究就更少,本文基于態(tài)函數(shù),提出了兩種基于態(tài)函數(shù)的離散分?jǐn)?shù)余弦變換方法——二周期離散分?jǐn)?shù)余弦變換和三周期離散分?jǐn)?shù)余弦變換;并把它們應(yīng)用于語音增強(qiáng)中,結(jié)合了語音增強(qiáng)的特點(diǎn),提出了四種基于離散分?jǐn)?shù)余弦變換的語音增強(qiáng)方法一基于二周期離散分?jǐn)?shù)余弦變換的語音增強(qiáng)算法(speech enhancement based on two cycles Discrete Fractionalcosine TYansform:FDCT2)、改進(jìn)的基于二周

6、期離散分?jǐn)?shù)余弦變換的語音增強(qiáng)算法(speech enhancement based on modified two cycles Discrete Fractional cosine Transform:MFDCT2)、基于三周期離散分?jǐn)?shù)余弦變換的語音增強(qiáng)算法(speech enhancement based on three cycles Discrete Fractional cosine Transform:FDCT3)和改進(jìn)的基

7、于三周期離散分?jǐn)?shù)余弦變換的語音增強(qiáng)算法(speech enhancement based on modified three cycles Discrete Fractional cosine Transform:MFDCT3)等四種算法,結(jié)果表明本文提出的幾種算法要優(yōu)于常規(guī)的DCT算法。 在噪聲環(huán)境下語音增強(qiáng)的研究中多級(jí)濾波方法具有明顯的優(yōu)勢(shì),其中歐洲電信標(biāo)準(zhǔn)化協(xié)會(huì)提出的兩級(jí)MEL域維納濾波結(jié)構(gòu)具有較優(yōu)良的降噪效果。但缺點(diǎn)是結(jié)

8、構(gòu)復(fù)雜,反復(fù)的時(shí)域一頻域轉(zhuǎn)換帶來計(jì)算量的急劇上升;研究發(fā)現(xiàn),單純地從時(shí)域或變換域很難消除語音中存在的噪聲和干擾,而分?jǐn)?shù)余弦變換是一種非常優(yōu)良的分析工具,本文將前面提出的基于態(tài)函數(shù)的分?jǐn)?shù)余弦變換應(yīng)用于語音增強(qiáng)中,提出了分?jǐn)?shù)余弦變換域上的兩級(jí)最優(yōu)濾波和分?jǐn)?shù)余弦變換域上的分頻段并聯(lián)濾波兩種語音增強(qiáng)方法,該方法直接在分?jǐn)?shù)余弦變換域上進(jìn)行濾波,避免了由于Mel域參數(shù)較少導(dǎo)致的頻域不連續(xù)性帶來的時(shí)域截?cái)嘣肼暋2粌H系統(tǒng)結(jié)構(gòu)得到了簡(jiǎn)化,而且性能得到了提

9、高。實(shí)驗(yàn)證明,這兩種方法在高斯白噪聲和幾種非平穩(wěn)噪聲下性能優(yōu)于兩級(jí)MEL域維納濾波器。在基于GMM的與文本無關(guān)的說話人識(shí)別中,噪聲和干擾一直是影響識(shí)別率提高的原因,大多數(shù)研究集中在前端處理,但在說話人識(shí)別后端處理方面,國(guó)內(nèi)外研究不多。本文從各模型幀似然概率的統(tǒng)計(jì)特性出發(fā),并提出了一種新的非線性變換方法一歸一化補(bǔ)償變換,該方法對(duì)幀似然概率進(jìn)行變換得到幀得分,將前幾幀得分進(jìn)行平均,作為當(dāng)前幀得分的權(quán)值。理論分析表明,與最大似然變換相比,歸一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論