基于聽覺計算模型和深度神經網絡的雙耳語音分離.pdf_第1頁
已閱讀1頁,還剩72頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、語音是人們最重要的交流方式之一。由于日常生活環(huán)境中噪聲的存在,以及信道傳輸損失等等因素,語音質量往往會受到影響,我們所接收到的語音中所包含的信息也會大打折扣,因此如何從帶噪語音中分離出干凈的語音,與人們的日常生活息息相關。故語音分離技術成為語音信號處理中一個重要研究方向。
  在過去的幾十年中,傳統(tǒng)的語音分離方法已經有了豐富的研究,例如譜減法,維納濾波法等。但是傳統(tǒng)的語音分離方法對語音和干擾的特性所做的一些假設,在實際生活中可能并

2、不能得到滿足,因此也使得其在實際應用場景中的效果大打折扣,比如會使得分離出的語音帶有“音樂噪聲干擾”等。近年來聽覺場景分析這一方法也越來越多地得到人們的重視和研究。該方法受人耳聽覺處理系統(tǒng)的啟發(fā),通過對語音提取出有效的“場景線索”來進行語音的分離。而基于計算機軟件來實現(xiàn)對語音的場景分析和分離方面的研究也方興未艾。但是目前基于分類神經網絡的聽覺場景分析方法,雖然能夠有效地提高分離后語音的信噪比,但是卻沒有很好地保證語音的聽感,使得語音存在

3、一些不連續(xù)性的問題。
  為此,在本文中,我們重點研究了如何利用深度神經網絡來進行語音分離,并改善聽感上的不自然的缺點;并基于計算聽覺場景分析理論,針對雙耳通道語音信號提取出有效的“場景線索”,提高模型在帶噪環(huán)境下的分離性能;通過對人耳聽覺計算模型的探索,在聽覺皮層感知域層面提取出具有模擬人耳聽覺特性的特征,改善語音分離效果。
  首先,我們提出了一種基于回歸神經網絡的雙耳通道語音分離方法。與分類神經網絡進行時頻單元的分類和

4、重組不同,我們利用神經網絡強大的信息提取和建模能力,直接從輸入的帶噪語音中估計出干凈的目標語音。通過選擇網絡的學習目標以及最小化均方誤差的準則,使得最終估計出的語音特征在時域和頻域上都保留了很好的連續(xù)性和自然度。實驗結果表明基于回歸神經網絡的分離方法能很大程度地提升分離后語音的聽感。
  其次,在回歸模型的基礎上,基于聽覺場景分析理論,我們提出了一種基于對數能量譜的雙通道特征表示方法。在傳統(tǒng)的對數能量譜特征上,我們針對雙耳通道信息

5、的特點,設計了基于頻點和時間的全頻帶互能量差異性特征和低維度的全局互能量差異性特征。為了使特征在包含足夠信息量的同時不至于因維度過高而引入過多參數,我們設計了子頻帶互能量差異性特征。實驗結果表明我們設計的雙通道能量差異性特征有效地利用了雙耳通道信息,較好地提升了分離效果,且基于子頻帶互能量差異性特征的系統(tǒng)性能更優(yōu)。
  最后,通過對聽覺計算模型領域的學習,我們提出了基于聽覺皮層時頻感知域特征的語音分離方法。通過對已有的數學模型的研

6、究,我們針對雙耳通道語音設計了模擬時頻感知域特性的二維濾波器。此外針對時頻感知域特征的維度過高問題,我們提出并采用了多種特征降維方式。比如單通道中的頻域平均的方法和主成份分析的方法。在提取雙通道“線索”時,我們設計了時頻感知域能量差特征,并使用了全局加權和和分區(qū)加權和的降維方式。使得雙通道特征在尺度組合上能達到最優(yōu),另外還設計了分頻帶加權和方法,使得雙通道特征在尺度組合上和不同頻帶上都能達到最優(yōu)。通過模型對加權系數的學習,我們最終得到了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論