2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩130頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、自然人機交互技術(shù)是當前計算機應(yīng)用技術(shù)研究的重要方向。語音識別是實現(xiàn)人機交互的重要途徑,而語音的情感識別對于實現(xiàn)人機的自然交互更是至關(guān)重要。近年來隨著心理學(xué)、生理學(xué)、神經(jīng)科學(xué)和計算機技術(shù)及與之相關(guān)的模式識別技術(shù)的發(fā)展,情感計算,特別是語音的情感識別研究,作為計算機科學(xué)的一個重要領(lǐng)域在理論和應(yīng)用上都取得了長足進步。在情感的定義與分類、情感關(guān)聯(lián)的聲學(xué)特征及相關(guān)的分類模型研究上提出了不同的技術(shù)和方法,發(fā)展了多個語種的情感識別研究,初步建立起語音

2、情感識別的框架體系。但隨著人們對語音情感識別的要求越來越高,各種情感識別方面的應(yīng)用需求提上日程,目前現(xiàn)有的技術(shù)與方法已經(jīng)不能滿足需求,特別是漢語普通話語音情感識別的研究相對較少,這就需要我們加快工作步伐,填補這方面的空白。 普通話語音的情感識別技術(shù)目前主要面臨四大關(guān)鍵技術(shù)問題:普通話語音情感語料庫問題,亟待建立一個在數(shù)量、質(zhì)量、管理和多樣性等方面滿足研究要求的普通話情感語音庫;情感的聲學(xué)關(guān)聯(lián)特征問題,尋求一組抗干擾能力強,與情感

3、狀態(tài)緊密相關(guān)的聲學(xué)特征向量;小樣本問題,減少由于說話人和文本差異帶來的對情感聲學(xué)特征的干擾,減小情感特征的類內(nèi)距離,提高情感識別率;特征向量的高維問題,經(jīng)過特征選擇或降維,選出最具有情感區(qū)別力的聲學(xué)特征,提高分類器泛化能力。 本文以下一代自然人機交互為應(yīng)用背景,系統(tǒng)分析研究了語音情感識別,特別是普通話語音情感識別的特點及存在的問題;在建立一個擴展性與應(yīng)用能力良好的普通話情感語音數(shù)據(jù)庫基礎(chǔ)上,提出以特征選擇、相對特征和情感焦點為核

4、心的新的語音情感識別技術(shù)。本文的主要研究內(nèi)容概括如下: (1)普通話情感語音數(shù)據(jù)庫。由于普通話情感語音研究剛剛起步,有關(guān)建立普通話情感語音數(shù)據(jù)庫的技術(shù)、經(jīng)驗和方法都較少。為了研究的需要,本文建立了一個普通話情感語音數(shù)據(jù)庫,用錄音法和剪輯法共采集1376句情感語音,分憤怒、害怕、高興、中性和悲傷5個情感類別。數(shù)據(jù)庫還存儲了各情感語音的基頻、能量、時長和共振峰等韻律學(xué)及音質(zhì)相關(guān)的聲學(xué)特征。 (2)聲學(xué)特征分析與選擇。情感的聲

5、學(xué)關(guān)聯(lián)特征是語音情感識別的關(guān)鍵之一。本文在普通話情感語音數(shù)據(jù)庫的基礎(chǔ)上,分析韻律學(xué)特征和共振峰特征在不同情感狀態(tài)下的靜態(tài)規(guī)律,以及在情感狀態(tài)轉(zhuǎn)變時的動態(tài)規(guī)律。同時,進行特征選擇和大規(guī)模的統(tǒng)計實驗,確定了特征向量在情感識別領(lǐng)域各種情況下的最優(yōu)配置。 (3)模式分類器研究。在對現(xiàn)有語音情感識別領(lǐng)域常用分類器進行分析的基礎(chǔ)上,本文選擇神經(jīng)網(wǎng)絡(luò)為主要分類器,詳細探討了它的原理、結(jié)構(gòu),及其在普通話語音情感識別中的運用。根據(jù)說話人和文本的異

6、同,設(shè)計了4種訓(xùn)練和測試樣本組織方式,在神經(jīng)網(wǎng)絡(luò)分類器下進行情感識別實驗,分析說話人與文本差異對情感識別的影響,并對兩種結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型進行性能優(yōu)化分析。最后比較了神經(jīng)網(wǎng)絡(luò)與SVM和KNN等分類器的識別性能。 (4)相對特征研究。針對說話人差異對語音情感識別的影響,本文提出了相對識別方法,用相對特征對說話人準相關(guān)和說話人無關(guān)兩組語音進行情感識別的實驗,并將結(jié)果與絕對特征作了比較。結(jié)果表明在說話人無關(guān)情況下,相對特征比絕對特征的

7、平均識別率提高了約40個百分點。本文還對相對特征和絕對特征的性能差異、適用范圍和易用性進行了分析比較。 (5)情感焦點研究。針對文本差異對情感識別的影響,本文分析了情感語音全局特征的缺點,提出以神經(jīng)網(wǎng)絡(luò)為分類器,以分段訓(xùn)練和分段測試為樣本重組方式,以投票制為最終決策機制的嶄新識別方法。在此基礎(chǔ)上,本文提出情感焦點理論,用情感焦點的方法篩選參與投票的語段,最終使得平均識別率比使用全局特征時提高了13個百分點。 此外,本文還

8、介紹了采用神經(jīng)網(wǎng)絡(luò)和特征選擇等技術(shù)開發(fā)的一個普通話語音情感識別的原型系統(tǒng):EmEars。經(jīng)過實驗測試,并與人類識別性能進行比較,可以得出結(jié)論:在說話人無關(guān),且文本無關(guān)情況下,EmEars的情感識別能力遠低于人類;但在說話人相關(guān),且文本相關(guān)情況下,EmEars的情感識別能力有大幅提高,甚至超過人類。 本文的貢獻和創(chuàng)新點歸納起來主要有以下三大方面: (1)普通話情感語音數(shù)據(jù)庫的建立為普通話情感語音的錄制、情感狀態(tài)的引導(dǎo)、文本

9、選擇和語音情感質(zhì)量的評測等方面提供了一系列有效的方法,為國內(nèi)同行的普通話語音情感識別研究,提供一個具有可比性的實驗樣本數(shù)據(jù)平臺。 (2)由于語種的差別,西方語系的情感語音聲學(xué)特征分析與選擇的研究成果不能完全適用于普通話情感語音。本文對普通話情感語音的此項研究填補了這方面的空白,同時它也為普通話的情感語音合成提供了參考。本文提出的特征選擇研究方案首次對情感類別、聲學(xué)特征種類、聲學(xué)特征個數(shù)以及訓(xùn)練樣本數(shù)量之間的關(guān)系進行了定量分析,為

10、尋求特征在種類、數(shù)量和識別類型上的最優(yōu)配置,提供了有效方法。 (3)本文用實驗方法證實了說話人和文本差異對語音情感識別的嚴重干擾。為解決此技術(shù)難點,本文從分析人類的語音情感識別機制入手,提出基于相對特征和情感焦點的新方法。它們能有效減少由于發(fā)聲系統(tǒng)和文本差異造成的類內(nèi)距離增大的不良影響,顯著提高語音情感識別率。為進一步探明人類的語音情感識別機制,實現(xiàn)實時的語音情感識別提供了良好的思路。 本文的研究成果不但豐富了語音情感識

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論