

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、語音是人類獲取信息的主要來源之一,也是最方便、最有效、最自然的交流工具。說話人識(shí)別技術(shù)在近三十多年的時(shí)間里取得了很大的進(jìn)步,這種技術(shù)的應(yīng)用為人類的日常生活帶來很大的便利。但是,隨著說話人識(shí)別的實(shí)用化,不同應(yīng)用領(lǐng)域?qū)ζ湟笠苍絹碓礁?。一方面,發(fā)音的多變性使說話人識(shí)別系統(tǒng)的適應(yīng)性還有待提高;另一方面,噪聲、訓(xùn)練時(shí)間以及通信信道失真等問題也會(huì)產(chǎn)生很大的影響。對于說話人識(shí)別來說,最主要的兩個(gè)問題是如何從語音中提取單純反映說話人身份信息的魯棒特征
2、,以及如何建立有效的識(shí)別模型達(dá)到實(shí)際應(yīng)用中對速度、數(shù)據(jù)量、使用條件等方面的要求。本文針對漢語語音的特點(diǎn),從分離身份信息和提高系統(tǒng)魯棒性兩個(gè)方面出發(fā)對漢語說話人識(shí)別展開研究,提出了新的說話人識(shí)別框架、模型和算法,主要取得了以下創(chuàng)新性成果。 本文的核心是提出了一種新的基于漢語元音映射的說話人識(shí)別框架。該框架的基礎(chǔ)是將漢語韻母中的元音部分以單元音音素為單位進(jìn)行分解,對此我們使用頻譜對比、特征對比、單元音滑動(dòng)統(tǒng)計(jì)分布、分類器識(shí)別率等方式
3、證實(shí)了從短時(shí)幀角度出發(fā),漢語韻母可以分解為單元音音素的組合,并通過大量的實(shí)驗(yàn)建立了漢語韻母到單元音的映射表。相對于傳統(tǒng)的說話人識(shí)別模型,新框架增加了漢語單元音音素分類模塊進(jìn)行韻母分解,并將多個(gè)針對單元音的說話人識(shí)別器組織起來代替?zhèn)鹘y(tǒng)的匹配或統(tǒng)計(jì)模塊對幀特征進(jìn)行處理。根據(jù)這個(gè)框架,每個(gè)針對單元音的說話人識(shí)別器進(jìn)行說話人識(shí)別時(shí)避免了語義信息的干擾,增強(qiáng)了分類的針對性;同時(shí),整個(gè)系統(tǒng)以短時(shí)幀作為基本識(shí)別單位,更易于達(dá)到實(shí)時(shí)處理的目標(biāo)。
4、 根據(jù)基于漢語元音映射的說話人識(shí)別框架,提出了基于漢語元音分類的矢量量化說話人識(shí)別方法。由于每個(gè)矢量量化分類器在訓(xùn)練和識(shí)別過程中避免了語義信息的影響,該方法利用較小的碼本就可以獲得較高的識(shí)別率。然而,為了保證碼本質(zhì)量,需要大量的訓(xùn)練數(shù)據(jù)和識(shí)別數(shù)據(jù)。針對說話人識(shí)別方法需要大量數(shù)據(jù)參與訓(xùn)練和識(shí)別的缺點(diǎn),結(jié)合新框架,本文又提出了基于仿生模式識(shí)別的漢語說話人識(shí)別方法。該方法在訓(xùn)練過程中為每個(gè)說話人的每個(gè)單元音音素幀特征在特征空間中建立一個(gè)包絡(luò);
5、識(shí)別時(shí)通過分析測試幀特征與包絡(luò)的關(guān)系進(jìn)行判決,大大縮減了對訓(xùn)練和識(shí)別數(shù)據(jù)量的需求。在研究過程中,我們發(fā)現(xiàn)基于漢語元音映射的說話人識(shí)別框架由于增加了單元音分類模塊,會(huì)帶來分類誤差并導(dǎo)致識(shí)別速度下降。對此,結(jié)合集成學(xué)習(xí)理論,我們提出了基于漢語元音映射的神經(jīng)網(wǎng)絡(luò)集成說話人識(shí)別方法。該方法在識(shí)別過程中不需要預(yù)先對測試語音幀進(jìn)行元音分類,省略了元音分類模塊,從而避免引入元音分類誤差,加快了識(shí)別速度。此外,針對新的說話人識(shí)別框架的特點(diǎn),本文在預(yù)處理
6、和抗噪方面也進(jìn)行了研究和改進(jìn),主要包括:提出了基于頻譜特征的自適應(yīng)元音幀提取算法,在損失端點(diǎn)檢測準(zhǔn)確性的前提下提高元音幀提取的速度和正確率;結(jié)合諧波積譜思想改進(jìn)了基音提取算法:提出了基于背景估計(jì)的自適應(yīng)抗噪方法,實(shí)現(xiàn)GMM模型下數(shù)據(jù)噪聲背景不同時(shí)特征的提取、修正和識(shí)別;針對測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)背景不同的情況,從特征值處理和模型補(bǔ)償兩方面考慮,提出了基于高斯混合模型的加權(quán)特征補(bǔ)償變換的抗噪方法,進(jìn)一步改善了系統(tǒng)的性能。 從本文一系列
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于GMM的說話人識(shí)別技術(shù)研究.pdf
- 基于特定文本的說話人識(shí)別技術(shù)研究.pdf
- 基于深度學(xué)習(xí)的說話人識(shí)別技術(shù)研究.pdf
- 基于文本無關(guān)的說話人識(shí)別技術(shù)研究.pdf
- 基于高斯混合模型的說話人識(shí)別技術(shù)研究.pdf
- 多說話人識(shí)別技術(shù)研究.pdf
- 抗噪聲說話人識(shí)別技術(shù)研究.pdf
- 基于VQ與HMM的說話人識(shí)別技術(shù)研究.pdf
- 基于小波分析的說話人識(shí)別技術(shù)研究.pdf
- 基于GMM的說話人識(shí)別技術(shù)研究與實(shí)現(xiàn).pdf
- 基于矢量量化的說話人識(shí)別技術(shù)研究.pdf
- 基于HHT與信息融合的說話人識(shí)別技術(shù)研究.pdf
- 說話人識(shí)別技術(shù)研究與改進(jìn).pdf
- 基于JFA的漢語耳語音說話人識(shí)別.pdf
- 基于GMM-UBM的穩(wěn)健的說話人識(shí)別技術(shù)研究.pdf
- 基于若干聲紋信息空間的說話人識(shí)別技術(shù)研究.pdf
- 基于稀疏表示的魯棒性說話人識(shí)別技術(shù)研究.pdf
- 基于IP網(wǎng)絡(luò)的魯棒性說話人識(shí)別技術(shù)研究.pdf
- 噪聲環(huán)境下說話人識(shí)別技術(shù)研究.pdf
- 基于壓縮感知的魯棒性說話人識(shí)別技術(shù)研究.pdf
評論
0/150
提交評論