2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩57頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、<p>  本科畢業(yè)設(shè)計(jì)(論文)</p><p><b> ?。ǘ?屆)</b></p><p>  一種基于MATLAB的特定聲音識別算法的研究</p><p>  所在學(xué)院 </p><p>  專業(yè)班級 電氣工程及其自動(dòng)化 &l

2、t;/p><p>  學(xué)生姓名 學(xué)號 </p><p>  指導(dǎo)教師 職稱 </p><p>  完成日期 年 月 </p><p><b>  摘 要</b></p><p&

3、gt;  語音信號處理研究分為語音識別、語音合成、語音編碼和聲紋識別四大分支。聲紋識別備受人們關(guān)注, 聲紋識別簡單來說就是通過一句話來判斷是誰說的。其中的說話人辨識領(lǐng)域廣泛應(yīng)用于刑偵破案、罪犯跟蹤、國防監(jiān)聽、個(gè)性化領(lǐng)域等;特定聲音識別指特征特別的聲音,槍聲,玻璃聲,呼救聲就屬于這一類。通過研究上述三種典型的特定聲音,提取相關(guān)語音參數(shù),通過三種特定聲音參數(shù)之間的對比,辨識出特定聲音,達(dá)到本論文的要求。主要內(nèi)容有:語音識別概述 語音相關(guān)原理

4、概述 提取語音,語譜分析,特征提取,訓(xùn)練數(shù)據(jù),短時(shí)能量等。編制MATLAB編程環(huán)境,以提高語音識別效率。經(jīng)過設(shè)計(jì)是在MATLAB的編譯環(huán)境下,試驗(yàn)結(jié)果表明:該方案旨在滿足特定聲音識別的基本要求。</p><p>  關(guān)鍵詞 語音識別 聲紋識別 MATLAB 特征值 特定聲音</p><p>  MATLAB-based voice recognition algorithm for a p

5、articular</p><p><b>  Abstract</b></p><p>  Speech signal processing research into speech recognition, speech synthesis, speech coding and acoustic pattern recognition four branches.

6、 Voiceprint identification much attention, voiceprint identification is simply through the sentence to determine who said it. Speaker identification which is widely used in the field of forensic detection, tracking crimi

7、nals, monitoring of national defense, individual fields, etc.; specific features of voice recognition that particular sound, guns, glass sound</p><p><b>  目 錄</b></p><p><b>  摘

8、 要I</b></p><p>  AbstractIV</p><p><b>  1 緒論1</b></p><p>  1.1 本課題來源及研究任務(wù)1</p><p>  1.2 國內(nèi)外相關(guān)技術(shù)發(fā)展及動(dòng)態(tài)1</p><p>  1.2.1國外研究歷史及現(xiàn)狀1<

9、/p><p>  1.2.2 國內(nèi)研究歷史及現(xiàn)狀3</p><p>  1.3 特定聲音識別技術(shù)的發(fā)展4</p><p>  1.4語音識別系統(tǒng)的分類4</p><p>  1.5特定聲音識別的研究方法5</p><p>  1.6 本論文內(nèi)容安排5</p><p>  2 特定語音信號

10、的原理7</p><p>  2.1 基于MATLAB的特定語音信號時(shí)域特征分析7</p><p>  2.2基于MATLAB的語音信號頻域特征分析12</p><p>  2.3基于MATLAB的語音信號線性預(yù)測分析15</p><p>  3 特定聲音MATLAB的實(shí)現(xiàn)和仿真23</p><p>  3.

11、1基于MATLAB的語音信號采集23</p><p>  3.2基于MATLAB的語音信號時(shí)域分析23</p><p>  3.3基于MATLAB的語音信號頻域分析28</p><p>  4特定聲音辨識31</p><p>  4.1原始波形圖31</p><p><b>  4.2語譜圖32&

12、lt;/b></p><p>  4.3 倒譜系數(shù)33</p><p>  4.4 短時(shí)譜34</p><p><b>  5結(jié)論36</b></p><p>  致 謝錯(cuò)誤!未定義書簽。</p><p>  參 考 文 獻(xiàn)37</p><p><b&

13、gt;  附 錄38</b></p><p><b>  1 緒論</b></p><p>  1.1 本課題來源及研究任務(wù)</p><p>  語音識別方法大致可分為基于說話人的語音識別方法、基于說話內(nèi)容的語音識別方法、基于統(tǒng)計(jì)的語音識別方法和基于網(wǎng)絡(luò)的語音識別方法。 數(shù)字語音信號處理是將數(shù)字信號處理與語音學(xué)相結(jié)合,解決現(xiàn)代通

14、信領(lǐng)域中人與人、人與機(jī)器之間的信息交流的學(xué)科。</p><p>  近幾年來語音信號處理學(xué)科在世界范圍內(nèi)已取得了飛速的發(fā)展。與其他生物識別技術(shù),諸如指紋識別、虹膜識別等相比較,特定聲音識別技術(shù)具有不會(huì)遺忘,無需記憶、使用方便等優(yōu)點(diǎn),還具有以下的特性:</p><p>  用戶接受的程度高,由于不涉及個(gè)人的隱私問題,用戶沒任何心理障礙。更為簡便、準(zhǔn)確經(jīng)濟(jì)及可擴(kuò)展性良好等眾多優(yōu)勢,特別是電信網(wǎng)

15、絡(luò)的身份識別。</p><p>  特定聲音識別技術(shù)在SR技術(shù)上,可以利用人本身的生物特性進(jìn)行身份鑒別,例如為公安部門進(jìn)行語音驗(yàn)證、為一般用戶提供防盜門開啟功能等等。在互聯(lián)網(wǎng)和通信領(lǐng)域中,SR技術(shù)可以應(yīng)用于諸如聲音撥號、電話銀行、電話購物、數(shù)據(jù)庫訪問等等眾多領(lǐng)域。在呼叫中心應(yīng)用上,SR技術(shù)同樣可以提供更加個(gè)性化式對呼叫的人機(jī)交互界面。當(dāng)顧客通過電話的方式對呼叫中心發(fā)出請求,系統(tǒng)能夠根據(jù)話音判斷出身份,從而提供個(gè)性

16、化的服務(wù)。</p><p>  本課題的主要任務(wù)是利用MATLAB軟件進(jìn)行特定聲音識別的辨識。給出三種特定聲音槍聲、玻璃破碎聲音和呼救聲,利用MATLAB仿真,辨識出這三種特定的聲音。</p><p>  1.2 國內(nèi)外相關(guān)技術(shù)發(fā)展及動(dòng)態(tài)</p><p>  1.2.1國外研究歷史及現(xiàn)狀</p><p>  隨著計(jì)算機(jī)的發(fā)明問世,語音識別的研

17、究得到了迅速的發(fā)展。自1959年第一個(gè)用軟件實(shí)現(xiàn)的英語十音素識別系統(tǒng)的完成,至今已有三十多年歷史。共歷程頗多艱辛和曲折[1]。</p><p>  語音識別的研究工作可以追溯到20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng),它是第一個(gè)可以識別十個(gè)英文數(shù)字的語音識別系統(tǒng)。 </p><p>  但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個(gè)重要的課題開展研究則是在60年代末70年代初。這首

18、先是因?yàn)橛?jì)算機(jī)技術(shù)的發(fā)展為語音識別的實(shí)現(xiàn)提供了硬件和軟件的可能,更重要的是語音信號線性預(yù)測編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù)的提出,有效的解決了語音信號的特征提取和不等長匹配問題。這一時(shí)期的語音識別主要基于模板匹配原理,研究的領(lǐng)域局限在特定人,小詞匯表的孤立詞識別,實(shí)現(xiàn)了基于線性預(yù)測倒譜和DTW技術(shù)的特定人孤立詞語音識別系統(tǒng);同時(shí)提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。 </p><p>

19、;  隨著應(yīng)用領(lǐng)域的擴(kuò)大,小詞匯表、特定人、孤立詞等這些對語音識別的約束條件需要放寬,與此同時(shí)也帶來了許多新的問題:第一,詞匯表的擴(kuò)大使得模板的選取和建立發(fā)生困難;第二,連續(xù)語音中,各個(gè)音素、音節(jié)以及詞之間沒有明顯的邊界,各個(gè)發(fā)音單位存在受上下文強(qiáng)烈影響的協(xié)同發(fā)音(Co-articulation)現(xiàn)象;第三,非特定人識別時(shí),不同的人說相同的話相應(yīng)的聲學(xué)特征有很大的差異,即使相同的人在不同的時(shí)間、生理、心理狀態(tài)下,說同樣內(nèi)容的話也會(huì)有很大

20、的差異;第四,識別的語音中有背景噪聲或其他干擾。因此原有的模板匹配方法已不再適用。 </p><p>  實(shí)驗(yàn)室語音識別研究的巨大突破產(chǎn)生于20世紀(jì)80年代末:人們終于在實(shí)驗(yàn)室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,第一次把這三個(gè)特性都集成在一個(gè)系統(tǒng)中,比較典型的是卡耐基梅隆大學(xué)(CarnegieMellonUniversity)的Sphinx系統(tǒng),它是第一個(gè)高性能的非特定人、大詞匯量連續(xù)語音識別系統(tǒng)。 &

21、lt;/p><p>  這一時(shí)期,語音識別研究進(jìn)一步走向深入,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語音識別中的成功應(yīng)用。HMM模型的廣泛應(yīng)用應(yīng)歸功于AT&TBell實(shí)驗(yàn)室Rabiner等科學(xué)家的努力,他們把原本艱澀的HMM純數(shù)學(xué)模型工程化,從而為更多研究者了解和認(rèn)識,從而使統(tǒng)計(jì)方法成為了語音識別技術(shù)的主流。 </p><p>  統(tǒng)計(jì)方法將研究者的視線從微觀轉(zhuǎn)向宏觀,不再

22、刻意追求語音特征的細(xì)化,而是更多地從整體平均(統(tǒng)計(jì))的角度來建立最佳的語音識別系統(tǒng)。在聲學(xué)模型方面,以Markov鏈為基礎(chǔ)的語音序列建模方法HMM(隱式Markov鏈)比較有效地解決了語音信號短時(shí)穩(wěn)定、長時(shí)時(shí)變的特性,并且能根據(jù)一些基本建模單元構(gòu)造成連續(xù)語音的句子模型,達(dá)到了比較高的建模精度和建模靈活性。在語言層面上,通過統(tǒng)計(jì)真實(shí)大規(guī)模語料的詞之間同現(xiàn)概率即N元統(tǒng)計(jì)模型來區(qū)分識別帶來的模糊音和同音詞。另外,人工神經(jīng)網(wǎng)絡(luò)方法、基于文法規(guī)則

23、的語言處理機(jī)制等也在語音識別中得到了應(yīng)用。 </p><p>  20世紀(jì)90年代前期,許多著名的大公司如IBM、蘋果、AT&T和NTT都對語音識別系統(tǒng)的實(shí)用化研究投以巨資。語音識別技術(shù)有一個(gè)很好的評估機(jī)制,那就是識別的準(zhǔn)確率,而這項(xiàng)指標(biāo)在20世紀(jì)90年代中后期實(shí)驗(yàn)室研究中得到了不斷的提高。比較有代表性的系統(tǒng)有:IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,N

24、uance公司的NuanceVoicePlatform語音平臺(tái),Microsoft的Whisper,Sun的VoiceTone等。 </p><p>  其中IBM公司于1997年開發(fā)出漢語ViaVoice語音識別系統(tǒng),次年又開發(fā)出可以識別上海話、廣東話和四川話等地方口音的語音識別系統(tǒng)ViaVoice'98。它帶有一個(gè)32,000詞的基本詞匯表,可以擴(kuò)展到65,000詞,還包括辦公常用詞條,具有“糾錯(cuò)機(jī)制

25、”,其平均識別率可以達(dá)到95%。該系統(tǒng)對新聞?wù)Z音識別具有較高的精度,是目前具有代表性的漢語連續(xù)語音識別系統(tǒng)。</p><p>  1.2.2 國內(nèi)研究歷史及現(xiàn)狀</p><p>  我國語音識別研究工作起步于五十年代,但近年來發(fā)展很快。研究水平也從實(shí)驗(yàn)室逐步走向?qū)嵱?。?987年開始執(zhí)行國家863計(jì)劃后,國家863智能計(jì)算機(jī)專家組為語音識別技術(shù)研究專門立項(xiàng),每兩年滾動(dòng)一次。我國語音識別技

26、術(shù)的研究水平已經(jīng)基本上與國外同步,在漢語語音識別技術(shù)上還有自己的特點(diǎn)與優(yōu)勢,并達(dá)到國際先進(jìn)水平。中科院自動(dòng)化所、聲學(xué)所、清華大學(xué)、北京大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、中國科技大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等科研機(jī)構(gòu)都有實(shí)驗(yàn)室進(jìn)行過語音識別方面的研究,其中具有代表性的研究單位為清華大學(xué)電子工程系與中科院自動(dòng)化研究所模式識別國家重點(diǎn)實(shí)驗(yàn)室。 </p><p>  清華大學(xué)電子工程系語音技術(shù)與專用芯片設(shè)計(jì)課題組,

27、研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識別系統(tǒng)的識別精度,達(dá)到94.8%(不定長數(shù)字串)和96.8%(定長數(shù)字串)。在有5%的拒識率情況下,系統(tǒng)識別率可以達(dá)到96.9%(不定長數(shù)字串)和98.7%(定長數(shù)字串),這是目前國際最好的識別結(jié)果之一,其性能已經(jīng)接近實(shí)用水平。研發(fā)的5000詞郵包校核非特定人連續(xù)語音識別系統(tǒng)的識別率達(dá)到98.73%,前三選識別率達(dá)99.96%;并且可以識別普通話與四川話兩種語言,達(dá)到實(shí)用要求。</p>&

28、lt;p>  中科院自動(dòng)化所及其所屬模式科技(Pattek)公司2002年發(fā)布了他們共同推出的面向不同計(jì)算平臺(tái)和應(yīng)用的“天語”中文語音系列產(chǎn)品——PattekASR,結(jié)束了中文語音識別產(chǎn)品自1998年以來一直由國外公司壟斷的歷史。</p><p>  如果從識別系統(tǒng)的詞匯量大小考慮,也可以將識別系統(tǒng)分為3類:(1)小詞匯量語音識別系統(tǒng)。通常包括幾十個(gè)詞的語音識別系統(tǒng)。(2)中等詞匯量的語音識別系統(tǒng)。通常包括

29、幾百個(gè)詞到上千個(gè)詞的識別系統(tǒng)。(3)大詞匯量語音識別系統(tǒng)。通常包括幾千到幾萬個(gè)詞的語音識別系統(tǒng)。隨著計(jì)算機(jī)與數(shù)字信號處理器運(yùn)算能力以及識別系統(tǒng)精度的提高,識別系統(tǒng)根據(jù)詞匯量大小進(jìn)行分類也不斷進(jìn)行變化。目前是中等詞匯量的識別系統(tǒng)到將來可能就是小詞匯量的語音識別系統(tǒng)。這些不同的限制也確定了語音識別系統(tǒng)的困難度。</p><p>  1.3 特定聲音識別技術(shù)的發(fā)展 </p><p>  1、神經(jīng)

30、網(wǎng)絡(luò)用于訓(xùn)練韻律模型</p><p>  由于人工神經(jīng)網(wǎng)絡(luò)具備良好的自學(xué)習(xí)和自適應(yīng)能力,將其應(yīng)用于語音合成系統(tǒng)中的韻律模型研究具有很重要的意義。將神經(jīng)網(wǎng)絡(luò)模型與已有的文語轉(zhuǎn)換系統(tǒng)有機(jī)結(jié)合,可以改變傳統(tǒng)的文語轉(zhuǎn)換系統(tǒng)的韻律模型,具有更強(qiáng)的適應(yīng)性和可訓(xùn)練性,使合成語音的自然度得到顯著提高,增加了系統(tǒng)的靈活性和風(fēng)格的多樣性。</p><p>  2、數(shù)據(jù)挖掘用于發(fā)現(xiàn)語音知識</p>

31、<p>  數(shù)據(jù)挖掘作為一種在大量數(shù)據(jù)庫中發(fā)現(xiàn)隱藏新知識的計(jì)算技術(shù)方法,通過語音定性模型的建立,將數(shù)據(jù)分析和挖掘結(jié)果轉(zhuǎn)化為邏輯規(guī)則或用可視化的形式進(jìn)行表達(dá)。因此,將數(shù)據(jù)挖掘和人機(jī)交互接口緊密地聯(lián)系在一起,將對計(jì)算機(jī)語音信號處理的研究工作產(chǎn)生巨大的推動(dòng)力,為語音信號處理提供了一條嶄新的研究途徑。</p><p>  3、文本-可視語音轉(zhuǎn)換系統(tǒng)研制成功</p><p>  文本-可

32、視語音轉(zhuǎn)換技術(shù)的出現(xiàn)是多媒體技術(shù)迅速發(fā)展的產(chǎn)物 也迎合了社會(huì)發(fā)展的需求。它給人們的生活增添了新的色彩,使計(jì)算機(jī)更加人性化,人們與計(jì)算機(jī)的交流變得更為簡單。相信在不久的將來,它會(huì)在眾多的技術(shù)、商業(yè)和娛樂領(lǐng)域得到廣泛的應(yīng)用,并逐步進(jìn)入我們每個(gè)人的生活。</p><p>  1.4語音識別系統(tǒng)的分類</p><p>  語音識別系統(tǒng)可以根據(jù)對輸入語音的限制加以分類。如果從說話者與識別系統(tǒng)的相關(guān)性

33、考慮,可以將識別系統(tǒng)分為3類:(1)特定人語音識別系統(tǒng):僅考慮對于專人的話音進(jìn)行識別;(2)非特定人語音系統(tǒng):識別的語音與人無關(guān),通常要用大量不同人的語音數(shù)據(jù)庫對識別系統(tǒng)進(jìn)行學(xué)習(xí);(3)多人的識別系統(tǒng):通常能識別一組人的語音,或者成為特定組語音識別系統(tǒng),該系統(tǒng)僅要求對要識別的那組人的語音進(jìn)行訓(xùn)練。</p><p>  如果從說話的方式考慮,也可以將識別系統(tǒng)分為3類:(1)孤立詞語音識別系統(tǒng):孤立詞識別系統(tǒng)要求輸入

34、每個(gè)詞后要停頓;(2)連接詞語音識別系統(tǒng):連接詞輸入系統(tǒng)要求對每個(gè)詞都清楚發(fā)音,一些連音現(xiàn)象開始出現(xiàn);(3)連續(xù)語音識別系統(tǒng):連續(xù)語音輸入是自然流利的連續(xù)語音輸入,大量連音和變音會(huì)出現(xiàn)。</p><p>  如果從識別系統(tǒng)的詞匯量大小考慮,也可以將識別系統(tǒng)分為3類:(1)小詞匯量語音識別系統(tǒng)。通常包括幾十個(gè)詞的語音識別系統(tǒng)。(2)中等詞匯量的語音識別系統(tǒng)。通常包括幾百個(gè)詞到上千個(gè)詞的識別系統(tǒng)。(3)大詞匯量語音識

35、別系統(tǒng)。通常包括幾千到幾萬個(gè)詞的語音識別系統(tǒng)。隨著計(jì)算機(jī)與數(shù)字信號處理器運(yùn)算能力以及識別系統(tǒng)精度的提高,識別系統(tǒng)根據(jù)詞匯量大小進(jìn)行分類也不斷進(jìn)行變化。目前是中等詞匯量的識別系統(tǒng)到將來可能就是小詞匯量的語音識別系統(tǒng)。這些不同的限制也確定了語音識別系統(tǒng)的困難度。</p><p>  1.5特定聲音識別的研究方法</p><p>  MATLAB是一種功能強(qiáng)大,效率高、交互性好的數(shù)值計(jì)算和可視化

36、計(jì)算機(jī)高級語言,它將數(shù)值分析、信號處理和圖形顯示有機(jī)地融合為一體,形成了一個(gè)極其方便、用戶界面友好的操作環(huán)境。隨著MATLAB的不斷發(fā)展,其功能越來越強(qiáng)大,廣泛應(yīng)用于數(shù)字語音信號處理、數(shù)值圖像處理、仿真、自動(dòng)控制、小波分析和神經(jīng)網(wǎng)絡(luò)等領(lǐng)域。同時(shí)又由于MATLAB具有大量的信號處理工具箱并能利用非線性動(dòng)態(tài)系統(tǒng)分析工具Simulink等優(yōu)點(diǎn),所以近年來MATLAB已成為數(shù)字信號處理的有利工具,因此也成為學(xué)習(xí)語音信號處理和進(jìn)行研究工作的仿真軟

37、件工具。</p><p>  本次對特定的語音識別正是在MATLAB這個(gè)平臺(tái)上實(shí)現(xiàn)的,下面簡單介紹MATLAB在語音識別中的幾個(gè)方面的應(yīng)用。</p><p>  通過MATLAB可以對數(shù)字化的語音信號進(jìn)行時(shí)域分析和頻域分析。通過MATLAB可以方便地展現(xiàn)語音信號的時(shí)域和頻域曲線,并且根據(jù)語音的特性對語音進(jìn)行分析。例如,清濁音的幅度差別、語音信號的端點(diǎn)、信號在頻域中的共振峰頻率、加不同窗和不

38、同窗長對信號的影響、LPC分析、頻譜分析等。</p><p>  通過MATLAB可以對數(shù)字化的語音信號進(jìn)行估計(jì)和判別。例如,根據(jù)語音信號的短時(shí)參數(shù),以及不同語音信號的短時(shí)參數(shù)的性質(zhì)對一段給定的信號進(jìn)行有無聲和清濁音的判斷、對語音信號的基音周期進(jìn)行估計(jì)等。</p><p>  通過對MATLAB的編程對語音信號進(jìn)行處理。由于MATLAB是一種面向科學(xué)和工程計(jì)算的高級語言,允許用數(shù)學(xué)形式的語

39、言編程,又有大量的庫函數(shù),所以編程簡單、編程效果高,易學(xué)易懂。我們可以對信號進(jìn)行加噪和去噪、濾波、截取語音等,也可以進(jìn)行語音編碼、語音識別、語音合成的編程。</p><p>  1.6 本論文內(nèi)容安排</p><p>  本論文首先介紹了本課題設(shè)計(jì)的背景知識,然后描述了特定聲音識別的研究主要內(nèi)容和方法,最后詳細(xì)介紹本人是如何通過幾個(gè)關(guān)鍵的參數(shù)來研究特定聲音的識別的。以下是各章節(jié)的具體安排。

40、</p><p>  第一章:緒論部分,通過國外國內(nèi)語音識別方面的對比,說明我國語音識別發(fā)展現(xiàn)狀,特定聲音識別技術(shù)的應(yīng)用以及本論文的研究任務(wù)。</p><p>  第二章:簡要地概括了特定聲音識別的相關(guān)參數(shù)的基本原理。包括自相關(guān)函數(shù)、短時(shí)過零率、倒譜分析、線性預(yù)測等。</p><p>  第三章:對特定聲音“呼救聲”進(jìn)行相關(guān)分析,并進(jìn)行仿真。</p>

41、<p>  第四章:著重對槍聲,玻璃聲,呼救聲這三種特定聲音從幾個(gè)方面進(jìn)行辨識。</p><p><b>  第五章:總結(jié)。</b></p><p>  2 特定語音信號的原理</p><p>  2.1 基于MATLAB的特定語音信號時(shí)域特征分析</p><p>  2.1.1 實(shí)驗(yàn)?zāi)康?lt;/p>

42、<p>  語音信號是一種非平穩(wěn)的時(shí)變信號,它攜帶著各種信息。在語音編碼、語音合成、語音識別和語音增強(qiáng)等語音處理中無一例外需要提取語音中包含的各種信息。語音信號分析的目的就在與方便有效的提取并表示語音信號所攜帶的信息。語音信號分析可以分為時(shí)域和變換域等處理方法,其中時(shí)域分析是最簡單的方法,直接對語音信號的時(shí)域波形進(jìn)行分析,提取的特征參數(shù)主要有語音的短時(shí)能量,短時(shí)平均過零率,短時(shí)自相關(guān)函數(shù)等。</p><p

43、>  本實(shí)驗(yàn)要求掌握時(shí)域特征分析原理,并利用已學(xué)知識,編寫程序求解語音信號的短時(shí)過零率、短時(shí)能量、短時(shí)自相關(guān)特征,分析實(shí)驗(yàn)結(jié)果,并能掌握借助時(shí)域分析方法所求得的參數(shù)分析語音信號的基音周期及共振峰。</p><p>  2.1.2實(shí)驗(yàn)內(nèi)容及原理</p><p><b>  1.窗口的選擇</b></p><p>  通過對發(fā)聲機(jī)理的認(rèn)識,語

44、音信號可以認(rèn)為是短時(shí)平穩(wěn)的。在5~50ms的范圍內(nèi),語音頻譜特性和一些物理特性參數(shù)基本保持不變。我們將每個(gè)短時(shí)的語音稱為一個(gè)分析幀。一般幀長取10~30ms。我們采用一個(gè)長度有限的窗函數(shù)來截取語音信號形成分析幀。通常會(huì)采用矩形窗和漢明窗。圖1.1給出了這兩種窗函數(shù)在幀長N=50時(shí)的時(shí)域波形。</p><p>  圖1.1 矩形窗和Hamming窗的時(shí)域波形</p><p>  矩形窗的

45、定義:一個(gè)N點(diǎn)的矩形窗函數(shù)定義為如下</p><p>  hamming窗的定義:一個(gè)N點(diǎn)的hamming窗函數(shù)定義為如下</p><p>  這兩種窗函數(shù)都有低通特性,通過分析這兩種窗的頻率響應(yīng)幅度特性可以發(fā)現(xiàn)(如圖1.2):矩形窗的主瓣寬度?。?*pi/N),具有較高的頻率分辨率,旁瓣峰值大(-13.3dB),會(huì)導(dǎo)致泄漏現(xiàn)象;漢明窗的主瓣寬8*pi/N,旁瓣峰值低(-42.7dB),可

46、以有效的克服泄漏現(xiàn)象,具有更平滑的低通特性。因此在語音頻譜分析時(shí)常使用漢明窗,在計(jì)算短時(shí)能量和平均幅度時(shí)通常用矩形窗。表1.1對比了這兩種窗函數(shù)的主瓣寬度和旁瓣峰值。</p><p>  圖1.2 矩形窗和Hamming窗的頻率響應(yīng)</p><p>  表1.1 矩形窗和hamming窗的主瓣寬度和旁瓣峰值</p><p><b>  2.短時(shí)能量<

47、;/b></p><p>  由于語音信號的能量隨時(shí)間變化,清音和濁音之間的能量差別相當(dāng)顯著。因此對語音的短時(shí)能量進(jìn)行分析,可以描述語音的這種特征變化情況。定義短時(shí)能量為:</p><p>  ,其中N為窗長 </p><p>  特殊地,當(dāng)采用矩形窗時(shí),可簡化為:</p><p&

48、gt;  短時(shí)能量函數(shù)的應(yīng)用:1)可用于區(qū)分清音段與濁音段。En值大對應(yīng)于濁音段,En值小對應(yīng)于清音段。2)可用于區(qū)分濁音變?yōu)榍逡艋蚯逡糇優(yōu)闈嵋舻臅r(shí)間(根據(jù)En值的變化趨勢)。3)對高信噪比的語音信號,也可以用來區(qū)分有無語音(語音信號的開始點(diǎn)或終止點(diǎn))。無信號(或僅有噪聲能量)時(shí),En值很小,有語音信號時(shí),能量顯著增強(qiáng)。 </p><p><b>  3.短時(shí)平均過

49、零率</b></p><p>  過零率可以反映信號的頻譜特性。當(dāng)離散時(shí)間信號相鄰兩個(gè)樣點(diǎn)的正負(fù)號相異時(shí),我們稱之為“過零”,即此時(shí)信號的時(shí)間波形穿過了零電平的橫軸。統(tǒng)計(jì)單位時(shí)間內(nèi)樣點(diǎn)值改變符號的次數(shù)具可以得到平均過零率。定義短時(shí)平均過零率:</p><p>  其中為符號函數(shù),,在矩形窗條件下,可以簡化為</p><p>  短時(shí)過零率可以粗略估計(jì)語音

50、的頻譜特性。由語音的產(chǎn)生模型可知,發(fā)濁音時(shí),聲帶振動(dòng),盡管聲道有多個(gè)共振峰,但由于聲門波引起了頻譜的高頻衰落,因此濁音能量集中于3KZ以下。而清音由于聲帶不振動(dòng),聲道的某些部位阻塞氣流產(chǎn)生類白噪聲,多數(shù)能量集中在較高頻率上。高頻率對應(yīng)著高過零率,低頻率對應(yīng)著低過零率,那么過零率與語音的清濁音就存在著對應(yīng)關(guān)系。.</p><p>  圖1.3為某一語音在矩形窗條件下求得的短時(shí)能量和短時(shí)平均過零率。分析可知:清音的短

51、時(shí)能量較低,過零率高,濁音的短時(shí)能量較高,過零率低。清音的過零率為0.5左右,濁音的過零率為0.1左右,兩但者分布之間有相互交疊的區(qū)域,所以單純依賴于平均過零率來準(zhǔn)確判斷清濁音是不可能的,在實(shí)際應(yīng)用中往往是采用語音的多個(gè)特征參數(shù)進(jìn)行綜合判決。</p><p>  短時(shí)平均過零率的應(yīng)用:1)區(qū)別清音和濁音。例如,清音的過零率高,濁音的過零率低。此外,清音和濁音的兩種過零分布都與高斯分布曲線比較吻合。2)從背景噪聲中

52、找出語音信號。語音處理領(lǐng)域中的一個(gè)基本問題是,如何將一串連續(xù)的語音信號進(jìn)行適當(dāng)?shù)姆指?,以確定每個(gè)單詞語音的信號,亦即找出每個(gè)單詞的開始和終止位置。3)在孤立詞的語音識別中,可利用能量和過零作為有話無話的鑒別。</p><p>  圖1.3矩形窗條件下的短時(shí)平均過零率</p><p><b>  4、短時(shí)自相關(guān)函數(shù)</b></p><p>  自

53、相關(guān)函數(shù)用于衡量信號自身時(shí)間波形的相似性。清音和濁音的發(fā)聲機(jī)理不同,因而在波形上也存在著較大的差異。濁音的時(shí)間波形呈現(xiàn)出一定的周期性,波形之間相似性較好;清音的時(shí)間波形呈現(xiàn)出隨機(jī)噪聲的特性,樣點(diǎn)間的相似性較差。因此,我們用短時(shí)自相關(guān)函數(shù)來測定語音的相似特性。短時(shí)自相關(guān)函數(shù)定義為:</p><p>  令,并且,可以得到:</p><p>  圖6給出了清音的短時(shí)自相關(guān)函數(shù)波形,圖7給出了不

54、同矩形窗長條件下(窗長分別為N=70,N=140,N=210,N=280)濁音的短時(shí)自相關(guān)函數(shù)波形。由圖1.6、圖1.7短時(shí)自相關(guān)函數(shù)波形分析可知:清音接近于隨機(jī)噪聲,清音的短時(shí)自相關(guān)函數(shù)不具有周期性,也沒有明顯突起的峰值,且隨著延時(shí)k的增大迅速減??;濁音是周期信號,濁音的短時(shí)自相關(guān)函數(shù)呈現(xiàn)明顯的周期性,自相關(guān)函數(shù)的周期就是濁音信號的周期,根據(jù)這個(gè)性質(zhì)可以判斷一個(gè)語音信號是清音還是濁音,還可以判斷濁音的基音周期。濁音語音的周期可用自相關(guān)

55、函數(shù)中第一個(gè)峰值的位置來估算。所以在語音信號處理中,自相關(guān)函數(shù)常用來作以下兩種語音信號特征的估計(jì):</p><p>  1)區(qū)分語音是清音還是濁音;</p><p>  2)估計(jì)濁音語音信號的基音周期。</p><p>  圖1.4 清音的短時(shí)自相關(guān)函數(shù)</p><p>  圖1.5 不同矩形窗長條件下的濁音的短時(shí)自相關(guān)函數(shù)</p>

56、;<p>  5、時(shí)域分析方法的應(yīng)用</p><p><b>  1)基音頻率的估計(jì)</b></p><p>  首先可利用時(shí)域分析(短時(shí)能量、短時(shí)過零率、短時(shí)自相關(guān))方法的某一個(gè)特征或某幾個(gè)特征的結(jié)合,判定某一語音有效的清音和濁音段;其次,針對濁音段,可直接利用短時(shí)自相關(guān)函數(shù)估計(jì)基音頻率,其方法是:估算濁音段第一最大峰的位置,再利用抽樣率計(jì)算基音頻率,

57、舉例來說,若某一語音濁音段的第一最大峰值約為35個(gè)抽樣點(diǎn),設(shè)抽樣頻率為11.025KHZ,則基音頻率為11025/35=315 HZ。</p><p>  但是,實(shí)際上第一最大峰值位置有時(shí)并不一定與基音周期吻合。一方面與窗長有關(guān),另一方面還與聲道特性有關(guān)。鑒于此,可采用三電平削波法先進(jìn)行預(yù)處理。</p><p>  2)語音端點(diǎn)的檢測與估計(jì)</p><p>  可利

58、用時(shí)域分析(短時(shí)能量、短時(shí)過零率、短時(shí)自相關(guān))方法的某一個(gè)特征或某幾個(gè)特征的結(jié)合,判定某一語音信號的端點(diǎn),尤其在有噪聲干擾時(shí),如何準(zhǔn)確檢測語音信號的端點(diǎn),這在語音處理中是富有挑戰(zhàn)性的一個(gè)課題。</p><p>  2.2基于MATLAB的語音信號頻域特征分析</p><p>  3.2.1 實(shí)驗(yàn)?zāi)康?lt;/p><p>  傅里葉分析是分析線性系統(tǒng)和平穩(wěn)信號穩(wěn)態(tài)特性的強(qiáng)

59、有力工具,它在許多工程領(lǐng)域得到了廣泛的應(yīng)用。它理論完善,且具有快速算法,在語音信號中處理領(lǐng)域也是一個(gè)重要的工具。語音信號的本質(zhì)上是非平穩(wěn)信號,所以可以假設(shè)語音信號在10~30ms這樣短的時(shí)間內(nèi)是平穩(wěn)的,這是短時(shí)分幀處理的基礎(chǔ),也是短時(shí)傅里葉分析的基礎(chǔ)。短時(shí)傅里葉分析就是在基于短時(shí)平穩(wěn)的假設(shè)下,用穩(wěn)態(tài)分析方法處理非平穩(wěn)的一種方法。因?yàn)檎Z音信號可以被看做短時(shí)平穩(wěn)信號,所以可以采用短時(shí)傅里葉分析。</p><p>&l

60、t;b>  2.2.2實(shí)驗(yàn)原理</b></p><p><b>  1、短時(shí)傅立葉變換</b></p><p>  由于語音信號是短時(shí)平穩(wěn)的隨機(jī)信號,某一語音信號幀的短時(shí)傅立葉變換的定義為:</p><p><b> ?。?.1)</b></p><p>  其中w(n-m)是實(shí)窗

61、口函數(shù)序列,n表示某一語音信號幀。令n-m=k',則得到</p><p><b> ?。?.2)</b></p><p><b>  于是可以得到</b></p><p><b>  (2.3)</b></p><p><b>  假定</b>&l

62、t;/p><p><b> ?。?)</b></p><p><b>  則可以得到</b></p><p><b> ?。?)</b></p><p>  同樣,不同的窗口函數(shù),將得到不同的傅立葉變換式的結(jié)果。由上式可見,短時(shí)傅立葉變換有兩個(gè)變量:n和ω,所以它既是時(shí)序n的離散函

63、數(shù),又是角頻率ω的連續(xù)函數(shù)。與離散傅立葉變換逼近傅立葉變換一樣,如令ω=2πk/N,則得離散的短時(shí)傅立葉吧如下:</p><p><b>  (6)</b></p><p><b>  2、語譜圖</b></p><p>  水平方向是時(shí)間軸,垂直方向是頻率軸,圖上的灰度條紋代表各個(gè)時(shí)刻的語音短時(shí)譜。語譜圖反映了語音信號的

64、動(dòng)態(tài)頻率特性,在語音分析中具有重要的實(shí)用價(jià)值。被成為可視語言。</p><p>  語譜圖的時(shí)間分辨率和頻率分辨率是由窗函數(shù)的特性決定的。時(shí)間分辨率高,可以看出時(shí)間波形的每個(gè)周期及共振峰隨時(shí)間的變化,但頻率分辨率低,不足以分辨由于激勵(lì)所形成的細(xì)微結(jié)構(gòu),稱為寬帶語譜圖;而窄帶語譜圖正好與之相反。</p><p>  寬帶語譜圖可以獲得較高的時(shí)間分辨率,反映頻譜的快速時(shí)變過程;窄帶語譜圖可以獲

65、得較高的頻率分辨率,反映頻譜的精細(xì)結(jié)構(gòu)。兩者相結(jié)合,可以提供帶兩與語音特性相關(guān)的信息。語譜圖上因其不同的灰度,形成不同的紋路,稱之為“聲紋”。聲紋因人而異,因此可以在司法、安全等場合得到應(yīng)用。</p><p><b>  3、復(fù)倒譜和倒譜</b></p><p>  復(fù)倒譜是x(n)的Z變換取對數(shù)后的逆Z變換,其表達(dá)式如下:</p><p>&

66、lt;b> ?。?)</b></p><p>  倒譜c(n)定義為x(n)取Z變換后的幅度對數(shù)的逆Z變換,即</p><p><b> ?。?)</b></p><p>  在時(shí)域上,語音產(chǎn)生模型實(shí)際上是一個(gè)激勵(lì)信號與聲道沖激響應(yīng)的卷積。對于濁音,激勵(lì)信號可以由周期脈沖序列表示;對于清音,激勵(lì)信號可以由隨機(jī)噪聲序列表示。聲道

67、系統(tǒng)相當(dāng)于參數(shù)緩慢變化的零極點(diǎn)線性濾波器。這樣經(jīng)過同態(tài)處理后,語音信號的復(fù)倒譜,激勵(lì)信號的復(fù)倒譜,聲道系統(tǒng)的復(fù)倒譜之間滿足下面的關(guān)系:</p><p><b> ?。?)</b></p><p>  由于倒譜對應(yīng)于復(fù)倒譜的偶部,因此倒譜與復(fù)倒譜具有同樣的特點(diǎn),很容易知道語音信號的倒譜,激勵(lì)信號的倒譜以及聲道系統(tǒng)的倒譜之間滿足下面關(guān)系:</p><p

68、><b> ?。?0)</b></p><p>  濁音信號的倒譜中存在著峰值,它的出現(xiàn)位置等于該語音段的基音周期,而清音的倒譜中則不存在峰值。利用這個(gè)特點(diǎn)我們可以進(jìn)行清濁音的判斷,并且可以估計(jì)濁音的基音周期。</p><p><b>  4、基因周期估計(jì)</b></p><p>  濁音信號的倒譜中存在峰值,它的出

69、現(xiàn)位置等于該語音段的基音周期,而清音的倒譜中則不存在峰值。利用倒譜的這個(gè)特點(diǎn),我們可以進(jìn)行語音的清濁音判決,并且可以估計(jì)濁音的基音周期。首先計(jì)算語音的倒譜,然后在可能出現(xiàn)的基因周期附近尋找峰值。如果倒譜峰值超過了預(yù)先設(shè)置的門限,則輸入語音判斷為濁音,其峰值位置就是基因周期的估計(jì)值;反之,如果沒有超出門限的峰值的話,則輸入語音為清音。</p><p><b>  5、共振峰估計(jì)</b><

70、/p><p>  對倒譜進(jìn)行濾波,取出低時(shí)間部分進(jìn)行進(jìn)行逆特征系統(tǒng)處理,可以得到一個(gè)平滑的對數(shù)譜函數(shù),這個(gè)對數(shù)譜函數(shù)顯示了輸入語音段的共振峰結(jié)構(gòu),同時(shí)譜的峰值對應(yīng)于共振峰頻率。通過此對數(shù)譜進(jìn)行峰值檢測,就可以估計(jì)出前幾個(gè)共振峰的頻率和強(qiáng)度。對于濁音的聲道特性,可以采用前三個(gè)共振峰來描述;清音不具備共振峰特點(diǎn)。</p><p>  2.3基于MATLAB的語音信號線性預(yù)測分析</p>

71、<p>  2.3.1 實(shí)驗(yàn)?zāi)康?lt;/p><p>  1947年美國科學(xué)家維納在研究火炮的自動(dòng)控制時(shí)提出了線性預(yù)測的思想。1967年日本學(xué)者板倉等人首先將線性預(yù)測技術(shù)應(yīng)用于語音分析和語音合成領(lǐng)域中,使語音處理技術(shù)獲得了巨大的發(fā)展。在各種語音處理技術(shù)中,線性預(yù)測是第一個(gè)真正使用的技術(shù)。</p><p>  作為最有效地語音分析技術(shù)之一,線性預(yù)測分析的基本思想是:一個(gè)語音取樣的現(xiàn)

72、在值可以用若干個(gè)語音取樣過去值的加權(quán)組合來逼近。在線性組合中的加權(quán)系數(shù)稱為預(yù)測器系數(shù)。通過使實(shí)際語音抽樣和線性預(yù)測抽樣之間的差值的平方和達(dá)到最小值,能夠決定唯一的一組預(yù)測器系數(shù)。線性預(yù)測的基本原理是建立在語音的數(shù)字模型基礎(chǔ)上,為估計(jì)數(shù)字模型的參數(shù),線性預(yù)測方法提供了一種可靠精確而有效地方法。</p><p><b>  2.3.2實(shí)驗(yàn)原理</b></p><p>  

73、1 LP分析基本原理</p><p>  在語音編碼算法中,由于實(shí)際語音信號的動(dòng)態(tài)變化范圍較大,如果直接對其進(jìn)行量化,則編碼所需的比特?cái)?shù)較大,編碼率較高。為了保證在較好的語音編碼質(zhì)量前提下,盡量減少編碼速率,可設(shè)法減小編碼器輸入信號的動(dòng)態(tài)范圍。線性預(yù)測編碼就是利用過去的樣值對新樣值進(jìn)行預(yù)測,然后將樣值的實(shí)際值與其預(yù)測值相減得到一個(gè)誤差信號,顯然誤差信號的動(dòng)態(tài)范圍遠(yuǎn)小于原始語音信號的動(dòng)態(tài)范圍,對誤差信號進(jìn)行量化編碼

74、,可大大減少量化所需的比特?cái)?shù),使編碼速率降低。</p><p>  LP分析為線性時(shí)不變因果穩(wěn)定系統(tǒng)V(z)建立一個(gè)全極點(diǎn)模型,并利用均方誤差準(zhǔn)則,對已知的語音信號s(n)進(jìn)行模型參數(shù)估計(jì)。</p><p>  如果利用P個(gè)取樣值來進(jìn)行預(yù)測,則稱為P階線性預(yù)測。假設(shè)用過去P個(gè)取樣值的加權(quán)之和來預(yù)測信號當(dāng)前取樣值,則預(yù)測信號為:</p><p><b>  

75、(1)</b></p><p>  其中加權(quán)系數(shù)用表示,稱為預(yù)測系數(shù),則預(yù)測誤差為:</p><p><b>  (2)</b></p><p>  要使預(yù)測最佳,則要使短時(shí)平均預(yù)測誤差最小有:</p><p><b>  (3)</b></p><p><

76、b>  (4)</b></p><p><b>  令 </b></p><p>  (5) </p><p><b>  最小的可表示成:<

77、;/b></p><p><b>  (6)</b></p><p>  顯然,誤差越接近于零,線性預(yù)測的準(zhǔn)確度在均方誤差最小的意義上為最佳,由此可以計(jì)算出預(yù)測系數(shù)。</p><p>  通過LPC分析,由若干幀語音可以得到若干組LPC參數(shù),每組參數(shù)形成一個(gè)描繪該幀語音特征的矢量,即LPC特征矢量。由LPC特征矢量可以進(jìn)一步得到很多種派生

78、特征矢量,例如線性預(yù)測倒譜系數(shù)、線譜對特征、部分相關(guān)系數(shù)、對數(shù)面積比等等。不同的特征矢量具有不同的特點(diǎn),它們在語音編碼和識別領(lǐng)域有著不同的應(yīng)用價(jià)值。</p><p><b>  2 自相關(guān)法</b></p><p>  在最佳線性預(yù)測中,若用下式定義的時(shí)間平均最小均方準(zhǔn)則代替(3)式的集合平均最小均方準(zhǔn)則,即令</p><p>  (7)

79、 </p><p>  事實(shí)上就是短時(shí)自相關(guān)函數(shù),因而</p><p><b>  (8)</b></p><p><b>  (9)</b></p><p>  根據(jù)平穩(wěn)隨機(jī)信號的自相關(guān)性質(zhì),可得</p&

80、gt;<p><b>  (10) </b></p><p><b>  由(6)式,可得:</b></p><p>  (11) </p><p>  綜上所述,可以得到如下矩陣形式:</p><p><b>  (12)</b></p>

81、<p>  值得注意的是,自相關(guān)法在計(jì)算預(yù)測誤差時(shí),數(shù)據(jù)段的兩端都需要加P個(gè)零取樣值,因而可造成譜估計(jì)失真。特別是在短數(shù)據(jù)段的情況下,這一現(xiàn)實(shí)更為嚴(yán)重。另外,當(dāng)預(yù)測系數(shù)量化時(shí),有可能造成實(shí)際系統(tǒng)的不穩(wěn)定。</p><p>  自相關(guān)解法主要有杜賓算法、格型算法和舒爾算法等幾種高效遞推算法。</p><p><b>  3 協(xié)方差法</b></p>

82、;<p>  如果在最佳線性預(yù)測中,用下式定義的時(shí)間平均最小均方準(zhǔn)則代替(3)式的集合平均最小均方準(zhǔn)則,則可得到類似的方程:</p><p><b> ?。?3) </b></p><p>  可以看出,這里的數(shù)據(jù)段兩端不需要添加零取樣值。在理論上,協(xié)方差法計(jì)算出來的預(yù)測系數(shù)有可能造成預(yù)測誤差濾波器的不穩(wěn)定,但在實(shí)際上當(dāng)每幀信號取樣足夠多時(shí),其計(jì)算結(jié)果將

83、與自相關(guān)法的結(jié)果很接近,因而穩(wěn)定性一般是能夠保證的 (當(dāng)然這種方法也有量化效應(yīng)可能引起不穩(wěn)定的缺點(diǎn))。</p><p>  協(xié)方差解法的最大優(yōu)點(diǎn)在于不存在自相關(guān)法中兩端出現(xiàn)很大預(yù)測誤差的情況,在N和P相差不大時(shí),其參數(shù)估值比自相關(guān)法要精確的多。但是在語音信號處理時(shí),往往取N在200左右。此時(shí),自相關(guān)法具有較大誤差的段落在整個(gè)語音段中所占的比例很小,參數(shù)估值也是比較準(zhǔn)確的。在這種情況下,協(xié)方差法誤差較小的優(yōu)點(diǎn)就不再

84、突出,其缺乏高效遞推算法的缺點(diǎn)成為了制約因素。所以,在語音信號處理中往往使用高效的自相關(guān)法。</p><p><b>  4 全極點(diǎn)聲道模型</b></p><p>  將線性預(yù)測分析應(yīng)用于語音信號處理,不僅是為了利用其預(yù)測功能,更因?yàn)樗峁┝艘粋€(gè)非常好的聲道模型。</p><p>  將式(2)所示的方程看成是濾波器在語音信號激勵(lì)下的輸入輸出

85、方程,則該濾波器稱為預(yù)測誤差濾波器,其e(n)是輸出誤差。變換到z域,P階預(yù)測誤差濾波器的系統(tǒng)函數(shù)為</p><p><b> ?。?4) </b></p><p>  可以看出,如果將預(yù)測誤差e(n)作為激勵(lì)信號,使其通過預(yù)測誤差濾波器的逆濾波器H(Z),即</p><p><b>  (15) </b></p&g

86、t;<p>  則H(Z)的輸出為語音信號s(n),也就是說,H(Z)在預(yù)測誤差e(n)的激勵(lì)下可以合成語音。因此,H(Z)被稱為語音信號的全極點(diǎn)模型,也稱為語音合成器。該模型的參數(shù)就是P階線性預(yù)測的預(yù)測系數(shù)。</p><p>  因?yàn)轭A(yù)測誤差含有語音信號的基音信息,所以對于濁音,模型的激勵(lì)信號源是以基音周期重復(fù)的單位脈沖;對于清音,激勵(lì)信號源e(n)是自噪聲。語音信號的全極點(diǎn)模型是一種很重要的聲道

87、模型,是許多應(yīng)用和研究的基礎(chǔ)。</p><p><b>  5 LPCC</b></p><p>  如果聲道特性H(Z)用式(14)所示的全極點(diǎn)模型表示,有</p><p><b> ?。?6)</b></p><p>  式中,S(z)和I(z)分別為語音信號和激勵(lì)源的Z變換。對人的聽覺來說,濁

88、音是最重要的語音信號。對于濁音,模型的激勵(lì)信號源e(n)是以基音周期重復(fù)的單位脈沖,此時(shí)有</p><p>  。可得的Z變換S(z)為</p><p><b> ?。?7)</b></p><p>  式中,為P階線性預(yù)測系數(shù)。根據(jù)倒譜的定義,對具有最小相位特征的語音信號,有</p><p><b>  (1

89、8)</b></p><p>  式中,為語音信號的倒譜。將式(16)代入式(17),并對兩邊求導(dǎo),得</p><p><b> ?。?9)</b></p><p>  根據(jù)上式即可由線性預(yù)測系數(shù)通過遞推得到倒譜系數(shù),將這樣得到的倒譜稱為線性預(yù)測倒譜系數(shù)。</p><p>  6 結(jié)合語音幀能量構(gòu)成LPC組合

90、參數(shù)</p><p>  由于人能從聲音的音色、頻高等各種信息中感知說話人的個(gè)性,因此可以想象,利用特征的有效組合可以得到比較穩(wěn)定的識別性能。一般來說,如果組合的各參量之間相關(guān)性不大,則會(huì)更有效一些,因?yàn)樗鼈兎謩e反映了語音信號中的不同特征。多年來,人們對組合參數(shù)在說話人識別中的應(yīng)用進(jìn)行了大量研究 。實(shí)驗(yàn)證明,組合參數(shù)可以提高系統(tǒng)的識別性能。</p><p>  組合參數(shù)雖然可以提高系統(tǒng)的性

91、能,但很顯然,無論是在特征參數(shù)提取環(huán)節(jié),還是在模型訓(xùn)練和模型匹配環(huán)節(jié)都使運(yùn)算量有所增加。在特征參數(shù)提取環(huán)節(jié),要計(jì)算一種以上的特征參數(shù)。在模型訓(xùn)練和模型匹配環(huán)節(jié),由于組合參數(shù)特征矢量的維數(shù)較多,使運(yùn)算復(fù)雜度有所增加。運(yùn)算量的增加會(huì)使系統(tǒng)的識別速度受到影響。</p><p>  為使運(yùn)算量問題得到較好的解決,所以可以由LPC參數(shù)與語音幀能量構(gòu)成組合參數(shù),能夠在運(yùn)算量增加不明顯的情況下改進(jìn)系統(tǒng)的性能。</p>

92、;<p>  語音幀能量是指一幀語音信號的能量,它等于該幀語音樣值的平方和。選取與語音幀能量構(gòu)成組合參數(shù)主要有以下考慮:1)語音幀能量是語音信號最基本的短時(shí)參數(shù)之一,它表征一幀語音信號能量的大小,是語音信號一個(gè)重要的時(shí)域特征;2)由一幀語音求出的語音幀能量是一個(gè)標(biāo)量值,與其它參量構(gòu)成組合參數(shù)不會(huì)使原特征矢量的維數(shù)明顯增加,特征矢量的維數(shù)越少,則需要的運(yùn)算復(fù)雜度越小,另外,獲取語音幀能量的運(yùn)算并不復(fù)雜;3)語音幀能量與LPC

93、參數(shù)之間的相關(guān)性不大,它們反映的是語音信號的不同特征,應(yīng)該有較好的效果。</p><p><b>  7 模型增益G</b></p><p>  模型的激勵(lì)信號表示為:</p><p>  (20) </p><p>  預(yù)測誤差e(n)如式(2),這樣當(dāng)實(shí)際的預(yù)測系數(shù)與模型系數(shù)相等時(shí),有</p>

94、<p><b> ?。?1) </b></p><p>  這說明激勵(lì)信號正比于誤差信號,其比例常數(shù)等于模型增益G。通常假設(shè)誤差信號的能量等于輸入激勵(lì)信號的能量,因此可以得到:</p><p> ?。?2) </p><p>  對于式中的激勵(lì)信號,主要分為濁音和清音兩種情況。其中為濁音時(shí),考慮到此時(shí)實(shí)際的激勵(lì)信

95、號為聲門脈沖,因此可以將激勵(lì)信號表示為時(shí)的單位抽樣。為了保證這個(gè)假設(shè)成立,要求分析的區(qū)間應(yīng)該大致和語音基因周期的長度相等。當(dāng)語音為清音時(shí),我們假定激勵(lì)信號為一個(gè)零均值、單位方差的平穩(wěn)白噪聲過程。</p><p>  采用自相關(guān)解法時(shí),濁音的模型增益為</p><p><b>  (23)</b></p><p>  清音計(jì)算模型增益的公式和濁音

96、相同。</p><p>  我們使用的原始語音為“北風(fēng)”,采樣頻率為11000。</p><p>  在這里我們?nèi)〉?0幀進(jìn)行觀察,線性預(yù)測階數(shù)為12,看到圖3.1所示的原始語音幀的波形,預(yù)測語音幀波形和它們之間預(yù)測誤差的波形。圖3.2為原始語音幀和預(yù)測語音幀的短時(shí)譜和LPC譜的波形</p><p>  圖1.7 原始語音幀、預(yù)測語音幀和預(yù)測誤差的波形</p&

97、gt;<p>  圖1.8 原始語音幀和預(yù)測語音幀的短時(shí)譜和LPC譜的波形</p><p>  這里我們可以改變線性誤差的階數(shù)來觀察語音幀的短時(shí)譜和LP譜的變化情況,如圖1.9。</p><p>  圖1.9 預(yù)測階數(shù)對語音幀短時(shí)譜和LPC譜的影響</p><p>  從圖中可以看出,P越大,LPC譜越能反映出語音短時(shí)譜的細(xì)節(jié)部分,但LPC譜的光滑度隨

98、之下降。由于我們的目的只是用LPC譜反映聲道綜合效應(yīng)的譜的表示式,而具體的諧波形狀是通過激勵(lì)譜來控制的,因此LPC譜只要能夠體現(xiàn)出語音的共振峰的結(jié)構(gòu)和譜包絡(luò)就可以,因此從計(jì)算復(fù)雜性的角度分析,預(yù)測階數(shù)P應(yīng)該適中。</p><p>  圖3.4是原始語音和預(yù)測誤差的倒譜波形,我們可以從中計(jì)算出原始語音的基音周期。從圖中看出兩峰值之間的間隔為40點(diǎn)左右,基音周期為40/11000=3.6ms,頻率為278Hz左右。&

99、lt;/p><p>  圖1.10原始語音和預(yù)測誤差的倒譜波形</p><p>  圖1.11給出了原始語音的語譜圖和預(yù)測語音的語譜圖,通過比較發(fā)現(xiàn),預(yù)測語音的預(yù)測效果還可以,基音頻率相差無幾。</p><p>  圖1.11 原始語音的語譜圖和預(yù)測語音的語譜圖</p><p>  3 特定聲音MATLAB的實(shí)現(xiàn)和仿真</p>&l

100、t;p>  所謂特定聲音,指的是比較獨(dú)特的聲音,比如像槍聲、玻璃破碎的聲音、呼救聲等等,這些聲音在現(xiàn)代技術(shù)中有著廣泛的應(yīng)用。比如說刑偵破案、罪犯跟蹤、國防監(jiān)聽等。基于上述情況,下面就呼救聲而言,對呼救聲這種特定聲音進(jìn)行分析。</p><p>  3.1基于MATLAB的語音信號采集</p><p>  利用matlab工具,可以對相關(guān)聲音進(jìn)行采集。</p><p&

101、gt;<b>  程序如下:</b></p><p><b>  Fs=11025;</b></p><p>  x=wavrecord(5*Fs,Fs,'int16');%采集5秒的聲音%</p><p>  sound(x,11025);%讀出剛采集的聲音%</p><p>  

102、還有一種方法是利用pc機(jī)自帶的錄音機(jī)進(jìn)行錄音。利用matlab的相關(guān)函數(shù)錄入即可。</p><p>  3.2基于MATLAB的語音信號時(shí)域分析</p><p>  1)語音的波形原始程序:</p><p><b>  fs=22050;</b></p><p>  x=wavread('g:\s1.wav

103、9;);%讀取語音信號的數(shù)據(jù),賦給變量x</p><p>  wavplay(x,22050);%播放語音信號</p><p>  y=fft(x,1024);%對信號做1024點(diǎn)FFT變換</p><p>  f=fs*(0:511)/1024;</p><p><b>  figure(1)</b></p>

104、;<p><b>  plot(x)</b></p><p>  title('原始語音信號');%做原始語音信號的時(shí)域圖形</p><p>  xlabel('time n');</p><p>  ylabel('幅值 n');</p><p><b

105、>  figure(2)</b></p><p>  freqz(x) %繪制原始語音信號的頻率響應(yīng)圖</p><p>  title('頻率響應(yīng)圖')</p><p><b>  figure(3)</b></p><p>  subplot(2,1,

106、1);</p><p>  plot(abs(y(1:512))) %做原始語音信號的FFT頻譜圖</p><p>  title('原始語音信號FFT頻譜')</p><p>  subplot(2,1,2);</p><p>  plot(f,abs(y(1:512)));</p><p&g

107、t;  title('原始語音信號頻譜')</p><p>  xlabel('Hz');</p><p>  ylabel('幅值');</p><p><b>  仿真結(jié)果:</b></p><p><b>  圖4—1</b></p>

108、<p><b>  圖4—2</b></p><p><b>  圖4—3</b></p><p><b>  2)語音的自相關(guān)</b></p><p><b>  fs=22050;</b></p><p>  x=wavread('

109、;g:\s1');</p><p>  s1=x(1:320);</p><p><b>  N=320;</b></p><p><b>  A=[];</b></p><p>  for k=1:320;</p><p><b>  sum=0;<

110、/b></p><p>  for m=1:N-k+1;</p><p>  sum=sum+s1(m)*s1(m+k-1);</p><p><b>  end </b></p><p><b>  A(k)=sum;</b></p><p><b>  e

111、nd</b></p><p>  for k=1:320</p><p>  A1(k)=A(k)/A(1);</p><p><b>  end</b></p><p>  f=zeros(1,320);</p><p><b>  n=1;j=1;</b>&l

112、t;/p><p>  while j<=320</p><p>  f(1,j)=x(n)*[0.54-0.46*cos(2*pi*n/319)];</p><p>  j=j+1;n=n+1;</p><p><b>  end</b></p><p><b>  B=[];<

113、/b></p><p>  for k=1:320;</p><p><b>  sum=0;</b></p><p>  for m=1:N-k+1;</p><p>  sum=sum+f(m)*f(m+k-1);</p><p><b>  end</b><

114、/p><p><b>  B(k)=sum;</b></p><p><b>  end</b></p><p>  for k=1:320 </p><p>  B1(k)=B(k)/B(1);</p><p><b>  end</b></p>

115、;<p>  s2=s1/max(s1);</p><p>  figure (1)</p><p>  subplot(3,1,1)</p><p><b>  plot(s2)</b></p><p>  title('一幀語音信號')</p><p>  xla

116、bel('樣點(diǎn)數(shù)')</p><p>  ylabel('幅值')</p><p>  axis([0,320,-1,1]);</p><p>  subplot(3,1,2)</p><p><b>  plot(A1);</b></p><p>  title(

117、'加矩形窗的自相關(guān)函數(shù)')</p><p>  xlabel('延時(shí)k')</p><p>  ylabel('R(k)')</p><p>  axis([0,320,-1,1]);</p><p>  subplot(3,1,3)</p><p><b> 

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論