2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩120頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著說話人識別技術(shù)的日益成熟,研究人員開始專注于研究實際應(yīng)用中復(fù)雜環(huán)境下的說話人識別技術(shù)來不斷提升話者識別基線系統(tǒng)的性能,從而逐漸將話者識別技術(shù)向?qū)嵱没七M(jìn)。近年來,如何提取到更具區(qū)分能力的前端特征,建立一個推廣性強的說話人模型開始受到說話人識別領(lǐng)域各著名研究機構(gòu)的重視。與此同時,復(fù)雜環(huán)境下的信道補償以及多系統(tǒng)間的融合方法的研究,也日益引起越來越多研究者的關(guān)注。在這種背景下,本文從整個系統(tǒng)構(gòu)建的角度出發(fā),以打造一個具有國際競爭力的話者識

2、別系統(tǒng)為目標(biāo),借助于SVM 強大的分類能力,圍繞著構(gòu)成一套成功的話者識別系統(tǒng)最關(guān)鍵的核心技術(shù):模型訓(xùn)練,信道補償、得分融合以及最重要的特征提取這四個方面展開了較系統(tǒng)而深入的研究。從而在較大程度上提升實際系統(tǒng)的性能。本論文的主要工作及創(chuàng)新點如下:
   首先,我們著眼于“話者模型訓(xùn)練”這一關(guān)鍵技術(shù)進(jìn)行了較深入的研究:我們首先搭建了一個基于混合高斯超向量-支持向量機(GSV-SVM)的話者確認(rèn)原型系統(tǒng),接著對該原型系統(tǒng)的各模塊進(jìn)行了

3、分析和改進(jìn)。通過大量實驗和分析發(fā)現(xiàn)SVM 應(yīng)用在話者識別建模時的正負(fù)樣本非平衡問題嚴(yán)重降低了系統(tǒng)性能。為了解決非平衡問題,我們接著在本文中提出了兩種方法:基于話者模型距離度量方法(SMD)和支持向量重訓(xùn)練方法(SVRT)。SMD 通過計算目標(biāo)與冒認(rèn)話者之間的模型間距離遠(yuǎn)近來判斷兩者之間的相似度,從而選擇相似度大的冒認(rèn)話者數(shù)據(jù)來做SVM 負(fù)例樣本。而后者則是在保持目標(biāo)話者數(shù)據(jù)始終不變的情況下,直接使用SVM的區(qū)分特性,從海量數(shù)據(jù)中選擇出最

4、具代表的支持向量(SV)作為最后目標(biāo)話者模型訓(xùn)練時的負(fù)例。這兩種算法都在一定程度上解決了非平衡問題,從而達(dá)到提高性能的目標(biāo)。
   其次,本論文在GSV-SVM系統(tǒng)框架基礎(chǔ)上,針對復(fù)雜環(huán)境下的信道干擾問題,對現(xiàn)有擾動屬性投影算法(NAP)做了幾個方面的改進(jìn),提出了一種話路變化主成分分析算法(SVPCA-WCCN)。該算法在訓(xùn)練信道空間時,不僅利用了訓(xùn)練數(shù)據(jù)已知的信道類型標(biāo)識信息,而且還考慮到在訓(xùn)練過程中拉開不同話者模型之間的區(qū)分

5、性,使得數(shù)據(jù)集合中已知的話者標(biāo)識信息也得到了充分利用。該算法同時還起到了降維的作用。最終結(jié)合類內(nèi)協(xié)方差歸一化技術(shù),對經(jīng)過去信道空間投影后的特征向量進(jìn)行平滑,從而進(jìn)一步消除訓(xùn)練和測試之間的不匹配因素,得到魯棒的目標(biāo)話者模型。本算法在NIST數(shù)據(jù)庫上的各種實驗中都取得了較好的結(jié)果。
   第三,高層韻律特征參數(shù)因為其特征提取具有一定的難度而使其發(fā)展舉步維艱。然而,這些特征的確具有良好的穩(wěn)定性,不易受信道及噪聲的影響,而且還能反映說話

6、者的說話風(fēng)格、習(xí)慣等具有良好區(qū)分性的個性特征。為了挖掘存在于高層韻律特征中的話者身份信息來進(jìn)一步增強已經(jīng)較成熟的基于底層聲學(xué)特征參數(shù)的話者識別系統(tǒng)的性能,本文提出了一種采用韻律特征的話者確認(rèn)方法:我們先介紹了韻律特征參數(shù)提取的若干細(xì)節(jié),接著給出了話者確認(rèn)系統(tǒng)的整個框架,最后給出了韻律特征應(yīng)用在實際系統(tǒng)中關(guān)鍵的技術(shù)-分段加權(quán)融合算法(SWF)。在NIST數(shù)據(jù)庫上實驗結(jié)果驗證了韻律特征和聲學(xué)參數(shù)特征的互補性,系統(tǒng)融合后可以較大地提升性能。該

7、研究同時在話者確認(rèn)的三大關(guān)鍵技術(shù)“特征提取、模型訓(xùn)練、得分融合”中都體現(xiàn)出了其貢獻(xiàn),從整個系統(tǒng)級的角度對基于韻律特征的話者確認(rèn)系統(tǒng)做了全面的定位和分析。
   最后,本文針對話者識別中最本質(zhì)的關(guān)鍵技術(shù)——“特征提取”做了深入的思考,提出了一種全新的聲紋特征,即基于諧波噪聲模型HNM分解的頻譜子帶能量比特征參數(shù)(SSERs)。接著在SSERs 特征的基礎(chǔ)上進(jìn)行了進(jìn)一步深入的研究,提出了諧波子帶能量和噪聲子帶能量特征。為了進(jìn)一步完善

8、新特征參數(shù)的提取方法,我們還提出了一種結(jié)合能量VAD和基音同步清濁音判斷的后處理方法來更好的挖掘原始語音中存在的話者身份信息。我們首先將語音信號幀采用HNM 進(jìn)行分解,得到諧波和噪聲兩個成分,通過觀察和分析語音信號幀在諧波和噪聲部分頻譜中每個頻率子帶的能量發(fā)現(xiàn),即使是不同的兩個目標(biāo)話者在發(fā)同一個音的時候,這種子帶能量的統(tǒng)計特性都能較好的反映他們之間的話者身份差異。為了突出所提特征的作用,我們排除其他因素的干擾,選擇在干凈環(huán)境下錄制的中文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論