版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、近年來,隨著計算機(jī)和互聯(lián)網(wǎng)的高速發(fā)展,人們的生活方式發(fā)生了巨大改變,人與計算機(jī)之間的交流也日益增多。作為人類最重要、最常用和最方便的信息交換方式—語音輸入,也得到了越來越多的科研人員的廣泛關(guān)注。隨著語音的人機(jī)交互技術(shù)在語音合成、自動語音識別(automatic speech recognition,ASR)等領(lǐng)域獲得了巨大成功,也同時伴隨著很多問題亟待解決,比如背景噪聲、混響等對語音質(zhì)量會產(chǎn)生極大的干擾,從而降低了語音的聽感以及可懂度,
2、對ASR的系統(tǒng)也會造成很大的影響,進(jìn)而影響語音技術(shù)的實(shí)際應(yīng)用。如何從被干擾的語音中獲得較干凈、清晰的語音信號,成為語音信號處理領(lǐng)域的一個重要課題。而在這其中,語音分離是極為重要的一個方面,也成為了語音技術(shù)發(fā)展的迫切需求,受到了研究人員的重點(diǎn)關(guān)注。
進(jìn)入21世紀(jì)以后,深度學(xué)習(xí)技術(shù)在信號處理域取得一系列重大突破,首先是多倫多大學(xué)的Hinton教授將深度模型引入在圖像編解碼和文本分類領(lǐng)域中,取得非常好的效果,再者是微軟的鄧力博士將深
3、度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)應(yīng)用在語音識別任務(wù)上,獲得了非常大的性能提升,隨后深度學(xué)習(xí)在語音,圖像和視頻領(lǐng)域都有非常廣泛的應(yīng)用,特別是工業(yè)界像谷歌,微軟,百度這樣的巨頭,都將深度學(xué)習(xí)應(yīng)用在他們的產(chǎn)品中,極大地促進(jìn)了深度學(xué)習(xí)在學(xué)術(shù)中的研究。并且工業(yè)界的大規(guī)模成功應(yīng)用,還顯示了大數(shù)據(jù)在實(shí)現(xiàn)分類或識別任務(wù)上的巨大的潛力。而在語音分離任務(wù)上,能否用深度學(xué)習(xí)技術(shù)結(jié)合大數(shù)據(jù)在說話人獨(dú)立的條件下實(shí)現(xiàn)比較好的性能表現(xiàn)是本
4、論文的一個研究重點(diǎn)。
在各種語音分離的方法中,除了會利用到空域信息的麥克風(fēng)陣列技術(shù)以外,單通道語音分離是其中非常重要的一個領(lǐng)域,而其中沒有混合說話人先驗(yàn)信息的說話人獨(dú)立方法是其中的一個難點(diǎn)。近年來,基于計算聽覺場景分析(computational auditory scene analysis,CASA)的方法在單通道語音分離上得到了成功的運(yùn)用,但是這種方法會給目標(biāo)信號造成很大的畸變。而利用回歸的DNN能夠更好的保留目標(biāo)信號,
5、本文的主要工作就是利用深度學(xué)習(xí)技術(shù)在單通道條件下進(jìn)行說話人獨(dú)立的語音分離。
首先,我們在異性說話人組合的情況下進(jìn)行了說話人獨(dú)立深度神經(jīng)網(wǎng)絡(luò)的構(gòu)建工作。能夠進(jìn)行多說話人語音分離的一個重要理論基礎(chǔ)是混合的說話人的發(fā)音特性具有一定的區(qū)分性,比如不同的共振峰、頻率分布、相同音素的不同發(fā)音時長等。而男性和女性說話人由于發(fā)音器官具有天然明顯的不同特性,具有可分離的理論基礎(chǔ)。通過利用混合語音的對數(shù)功率譜(log-power spectra,
6、LPS)作為DNN模型的輸入特征,而將說話人的干凈語音特征作為輸出,訓(xùn)練DNN學(xué)習(xí)混合語音和干凈語音的非線性關(guān)系。
然后,本文提出了一個基于說話人組合檢測的說話人獨(dú)立單通道語音模型系統(tǒng)。首先通過利用一種計算說話人語音相似度的方法,將說話人聚類成4個不同的子類,并證明不同之類之間具有明顯的可分性。然后基于聚類結(jié)果,本文訓(xùn)練了一個有四輸出端的說話人組合檢測器,通過該檢測器網(wǎng)絡(luò)的輸出信號的能量關(guān)系,可以判斷當(dāng)前混合語音的說話人組合類
7、別。最后,根據(jù)檢測器的識別結(jié)果,利用不同的DNN語音分離器將混合語音進(jìn)行分離。
最后,本文基于最大似然估計改進(jìn)在回歸DNN模型的訓(xùn)練過程中采用的最小均方誤差準(zhǔn)則(Minimum Mean Square Error, MMSE)目標(biāo)函數(shù)。在最大似然估計的情況下,假設(shè)DNN的輸出錯誤信號服從零均值的多維高斯分布,提出了一種依次更新DNN參數(shù)和其輸出錯誤信號的分布函數(shù)的協(xié)方差矩陣的方法。進(jìn)而可以發(fā)現(xiàn)MMSE準(zhǔn)則在以下假設(shè)的條件下等效
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于深度學(xué)習(xí)的單通道語音分離.pdf
- 基于序貫字典學(xué)習(xí)的單通道語音分離算法研究.pdf
- 基于深度學(xué)習(xí)的語音分離研究.pdf
- 基于稀疏分解的單通道混合語音分離算法研究.pdf
- 單通道語音分離關(guān)鍵技術(shù)研究.pdf
- 基于深度學(xué)習(xí)的有監(jiān)督語音分離方法研究.pdf
- 基于深度學(xué)習(xí)的短語音說話人識別研究.pdf
- 基于計算聽覺場景分析的雙說話人混合語音分離研究.pdf
- 基于稀疏表示和深度學(xué)習(xí)的欠定語音分離方法研究.pdf
- 基于麥克風(fēng)陣列的說話人跟蹤及語音分離實(shí)現(xiàn)技術(shù)的研究.pdf
- 基于盲源分離的單通道語音增強(qiáng)算法研究.pdf
- 基于計算聽覺場景分析的單通道語音盲分離技術(shù).pdf
- 基于深度神經(jīng)網(wǎng)絡(luò)的欠定語音分離方法研究.pdf
- 基于機(jī)器學(xué)習(xí)的欠定語音分離方法研究.pdf
- 基于深度學(xué)習(xí)的說話人識別研究.pdf
- 基于語音組成單位的文本無關(guān)說話人識別.pdf
- 基于空域?yàn)V波的語音分離研究.pdf
- 基于深度學(xué)習(xí)的說話人識別建模研究.pdf
- 基于文本無關(guān)的說話人識別.pdf
- 基于計算聽覺場景分析和深度神經(jīng)網(wǎng)絡(luò)的混響語音分離.pdf
評論
0/150
提交評論