版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、語音端點(diǎn)檢測(cè)的方法,演講者:劉德體,語音端點(diǎn)檢測(cè)的目的和意義基于短時(shí)能量和短時(shí)平均過零率的端點(diǎn)檢測(cè)基于倒譜特征的端點(diǎn)檢測(cè)基于熵的端點(diǎn)檢測(cè)基于復(fù)雜性的端點(diǎn)檢測(cè)(KC復(fù)雜性和C0復(fù)雜性)不同語音端點(diǎn)檢測(cè)方法的實(shí)驗(yàn)結(jié)果對(duì)比,語音端點(diǎn)檢測(cè)的目的和意義,目的 語音信號(hào)端點(diǎn)檢測(cè)技術(shù)其目的就是從包含語音的一段信號(hào)中準(zhǔn)確地確定語音的起始點(diǎn)和終止點(diǎn),區(qū)分語音和非語音信號(hào),它是語音處理技術(shù)中的一個(gè)重要方面。意義 有效
2、的端點(diǎn)檢測(cè)技術(shù)不僅能在語音識(shí)別系統(tǒng)中減少數(shù)據(jù)的采集量,節(jié)約處理時(shí)間,還能排除無聲段或噪聲段的干擾,提高語音識(shí)別系統(tǒng)的性能,而且在語音編碼中還能降低噪聲和靜音段的比特率,提高編碼效率。,基于短時(shí)能量和短時(shí)平均過零率的端點(diǎn)檢測(cè),短時(shí)能量 語音和噪聲的區(qū)別可以體現(xiàn)在它們的能量上,語音段的能量比噪聲段能量大,語音段的能量是噪聲段能量疊加語音聲波能量的和。在信噪比很高時(shí),那么只要計(jì)算輸入信號(hào)的短時(shí)能量或短時(shí)平均幅度就能夠把語音段
3、和噪聲背景區(qū)分開。這是僅基于短時(shí)能量的端點(diǎn)檢測(cè)方法。 信號(hào){x(n)}的短時(shí)能量定義為: 語音信號(hào)的短時(shí)平均幅度定義為: 其中w(n)為窗函數(shù)。,短時(shí)平均過零率 短時(shí)過零表示一幀語音信號(hào)波形穿過橫軸(零電平)的次數(shù)。過零分析是語音時(shí)域分析中最簡單的一種。對(duì)于連續(xù)語音信號(hào),過零意味著時(shí)域波形通過時(shí)間軸;而對(duì)于離散信號(hào),如果相鄰的取樣值的改變符號(hào)稱
4、為過零。過零率就是樣本改變符號(hào)次數(shù)。 信號(hào){x(n)}的短時(shí)平均過零率定義為: 式中,sgn為符號(hào)函數(shù),即:,過零率有兩類重要的應(yīng)用:第一,用于粗略地描述信號(hào)的頻譜特性;第二,用于判別清音和濁音、有話和無話。從上面提到的定義出發(fā)計(jì)算過零率容易受低頻干擾,特別是50Hz交流干擾的影響。解決這個(gè)問題的辦法,一個(gè)是做高通濾波器或帶通濾波,減小隨機(jī)噪聲的影響;另一個(gè)有效
5、方法是對(duì)上述定義做一點(diǎn)修改,設(shè)一個(gè)門限T,將過零率的含義修改為跨過正負(fù)門限。 于是,有定義:,檢測(cè)方法 利用過零率檢測(cè)清音,用短時(shí)能量檢測(cè)濁音,兩者配合。首先為短時(shí)能量和過零率分別確定兩個(gè)門限,一個(gè)是較低的門限數(shù)值較小,對(duì)信號(hào)的變化比較敏感,很容易超過;另一個(gè)是比較高的門限,數(shù)值較大。低門限被超過未必是語音的開始,有可能是很短的噪聲引起的,高門限被超過并且接下來的自定義時(shí)間段內(nèi)的語音超過低門限,意味著信號(hào)
6、開始。 此時(shí)整個(gè)端點(diǎn)檢測(cè)可分為四段:靜音段、過渡段、語音段、結(jié)束。實(shí)驗(yàn)時(shí)使用一個(gè)變量表示當(dāng)前狀態(tài)。靜音段,如果能量或過零率超過低門限,就開始標(biāo)記起始點(diǎn),進(jìn)入過渡段。過渡段當(dāng)兩個(gè)參數(shù)值都回落到低門限以下,就將當(dāng)前狀態(tài)恢復(fù)到靜音狀態(tài)。而如果過渡段中兩個(gè)參數(shù)中的任一個(gè)超過高門限,即被認(rèn)為進(jìn)入語音段。處于語音段時(shí),如果兩參數(shù)降低到門限以下,而且總的計(jì)時(shí)長度小于最短時(shí)間門限,則認(rèn)為是一段噪音,繼續(xù)掃描以后的語音數(shù)據(jù),否則標(biāo)一記
7、結(jié)束端點(diǎn)。,數(shù)字“4”的短時(shí)能量與平均過零率,基于倒譜特征的端點(diǎn)檢測(cè),概念 信號(hào)倒譜的一種定義是信號(hào)的能量譜密度函數(shù)S(ω)的對(duì)數(shù)的傅里葉反變換,或者可以將信號(hào)s(n)的倒譜c(n)看成是logS(ω)的傅里葉級(jí)數(shù)展開,即: 式中Cn=C-n為實(shí)數(shù),通常稱為倒譜系數(shù),且,對(duì)于一對(duì)譜密度函數(shù)S(w)與S’(w) ,利用Parseval定理,其對(duì)數(shù)譜的均方距離可用倒譜距離表示:
8、 式中,Cn與C’n分別代表譜密度函數(shù)S(w)與S’(w)的倒譜系數(shù)。,方法: 倒譜距離的測(cè)量法步驟類似于基于能量的端點(diǎn)檢測(cè),只是將倒譜距離代替短時(shí)能量來作為特征參數(shù)。首先,假定前幾幀信號(hào)是背景噪聲,計(jì)算這些幀的倒譜系數(shù),利用前幾幀倒譜系數(shù)的平均值可估計(jì)背景噪聲的倒譜系數(shù),噪聲倒譜系數(shù)的近似值可按下述規(guī)則進(jìn)行更新,即當(dāng)前幀被認(rèn)為是非語音幀: 式中 為噪聲倒譜系數(shù)的近似值,
9、 為當(dāng)前測(cè)試幀的倒譜系數(shù),p為調(diào)節(jié)參數(shù)。 倒譜距離可用下式近似計(jì)算: 式中 對(duì)應(yīng)于 的噪聲倒譜系數(shù),計(jì)算所有測(cè)試幀與背景噪聲之間的倒譜距離可得到倒譜距離軌跡類似于基于能量的端點(diǎn)檢測(cè)過程利用倒譜距離軌跡可檢測(cè)語音的端點(diǎn)。,基于熵的端點(diǎn)檢測(cè),基于信息熵的檢測(cè)方法 對(duì)于離散型信源,當(dāng)它由若干隨機(jī)事件所組成時(shí),隨機(jī)事件出現(xiàn)的不確定度用其出現(xiàn)的概率來描述。事件出現(xiàn)的可能性愈小,概率就愈
10、小,·而所含信息量卻愈大;相反,事件出現(xiàn)可能性愈大,概率就愈大,而所含信息量卻愈小。則信源提供的平均信息量為: 這里所定義的H(x)就是信息熵。,由于語音信號(hào)的幅度相對(duì)于背景噪聲而言其幅度的動(dòng)態(tài)范圍大。因此可以認(rèn)為語音信號(hào)在范圍(一M,M)中的隨機(jī)事件大,也就是熵值大,而無聲狀態(tài)(信號(hào)中只含噪聲)的幅度小、分布相對(duì)集中,因而熵值小。 按照以上原理,在構(gòu)造出了熵函數(shù)之后就可只計(jì)算出每幀信號(hào)
11、的信息熵(幅度熵)。假設(shè)語音信號(hào)S(n)的幀長為N,在一幀語音中最大幅度值與最小幅度值分別為M、一M,分別統(tǒng)計(jì)這一區(qū)域中S(n)=Si,Si∈(一M,M)出現(xiàn)的次數(shù)ni,并將比例ni/N作為出現(xiàn)Si這一值的概率:Pi= ni/N。將Pi代入前面的熵函數(shù)公式,即可得到語音信號(hào)的熵函數(shù)曲線。背景噪聲信號(hào)的幅度熵的值較小而濁音信號(hào)的幅度熵值比較大,因此可以進(jìn)行端點(diǎn)檢測(cè)。首先通過實(shí)驗(yàn)確定一個(gè)閾值h,然后對(duì)每幀語音的熵值進(jìn)行比較,認(rèn)為熵值大于等于
12、h時(shí)為語音幀,小于h則為無聲幀,即可檢測(cè)出語音信號(hào)的端點(diǎn)。,基于譜熵的檢測(cè)方法 譜熵方法與信息嫡方法有著相似之處,信息熵方法是在時(shí)域內(nèi)對(duì)信號(hào)進(jìn)行熵值統(tǒng)計(jì)和計(jì)算,譜熵檢測(cè)方法是從語音信號(hào)的頻域來進(jìn)行計(jì)算,然后從頻譜分布概率來進(jìn)行語音端點(diǎn)的檢測(cè)。 譜熵的計(jì)算方法如下:首先通過快速傅立葉變換(FFT)得到每一幀信號(hào)的頻譜,其中每個(gè)頻譜向量的系數(shù)表明了該幀信號(hào)在該頻率點(diǎn)的大小分布。然后計(jì)算每個(gè)頻譜分量在每幀總能量中
13、所占的比例,將其作為信號(hào)能量集中在某頻率點(diǎn)的概率,其概率密度函數(shù)定義為: 式中,S(fi)是fi的能量,Pi是相應(yīng)的概率密度,N是FTF中頻率成分的所有點(diǎn)數(shù)。由于語音信號(hào)的絕大部分能量集中200Hz~350OHZ之間,所以,為了集中計(jì)算譜熵以增加語音和非語音在概率密度函數(shù)中的區(qū)分性,我們把200HZ~3500Hz之外的頻率分量置為0,即:,相應(yīng)的每一幀的譜熵定義如下: 通過熵函數(shù)就可以計(jì)算每幀
14、語音信號(hào)的譜熵,并跟閾值比較,就可以檢測(cè)出語音的起止點(diǎn)。,基于復(fù)雜性的端點(diǎn)檢測(cè)(KC復(fù)雜性和C0復(fù)雜性),復(fù)雜性,Kolmogorov復(fù)雜度 即KC復(fù)雜性,它可以用來衡量序列的復(fù)雜程度如何,LemPel和Ziv定義了由有限集合的元素所構(gòu)成的有限序列的復(fù)雜度C(n),它反映了序列接近隨機(jī)的程度,按有限序列從頭開始反復(fù)進(jìn)行以下操作:每次添加一個(gè)元素構(gòu)成一個(gè)檢驗(yàn)子串,如果該子串在除去最后添加的那個(gè)元素之前所構(gòu)成的序列中已出現(xiàn)過,
15、那么所構(gòu)成的新序列的復(fù)雜度保持不變,并繼續(xù)添加元素,直到由上述相繼添加元素所構(gòu)成的添加子串在除去最后添加的那個(gè)元素之前所形成的整個(gè)序列中從未出現(xiàn)過為止,此時(shí)整個(gè)序列的復(fù)雜度增加一,當(dāng)往后繼續(xù)添加元素時(shí)重新建立新的檢驗(yàn)子串,如此反復(fù)進(jìn)行,直到結(jié)束。如果最后一個(gè)檢驗(yàn)子串在除去末尾一個(gè)元素之前的序列中出現(xiàn)過,復(fù)雜度也仍然加一。,具體來說,分以下幾個(gè)步驟: 假如有一數(shù)列(x1,x2,…xn),首先求得這個(gè)數(shù)列的平均值m,再把這個(gè)數(shù)
16、列重構(gòu)。大于平均值m的值,令它們?yōu)?,小于平均值m的,令之為0,這樣,就構(gòu)成了(S1,S2,…Sn)新的(0,1)序列。 在這樣的(0,1)序列中已形成的一串字符S=s1,s2,…sr后,再加稱之為Q的一個(gè)或一串字符Sr+1或者(Sr+1,Sr+2,…Sr+k),得到SQ,令SQπ是一串字符SQ減去最后的一個(gè)字符,再看Q是否屬于SQπ字符串中已有的“字句”。如果已經(jīng)有過,那么把這個(gè)字符加在后面稱之為“復(fù)制”,如果沒有出現(xiàn)過
17、,則稱之為“插入”,“插入”時(shí)用一個(gè)“.”把前后分開;下一步則把“.”前面的所有字符看成S,再重復(fù)如上步驟。,例如,序列0010的復(fù)雜度可以由下列步驟而得: 第一個(gè)符號(hào)永遠(yuǎn)是插入:0. S=0,Q=0,SQ=00,SQπ=0,Q屬于SQ→0.0 S=0,Q=01,SQ=001,SQπ=00,Q不屬于SQ→0.01. S=001,Q=0,SQ=0010,SQπ=001,Q屬于SQ→0.01.0,這時(shí) C(
18、n)=3。 如符號(hào)列0000…應(yīng)是最簡單的,它的形式應(yīng)是0.00000…,C(n)=2。符號(hào)列01010101…應(yīng)是0.1.0101…,C(n)=3。 如上所述,就得到用“.”分成段的字符串。分成了段的數(shù)目就定義為“復(fù)雜度”C(n)。,根據(jù)Lmapel和Ziv的研究,對(duì)幾乎所有的x屬于[0,1]區(qū)間的c(n)都會(huì)趨向一個(gè)定值: 其中b(n)是隨機(jī)序列的漸進(jìn)行為,用它來使c(n)歸一化,稱為
19、“相對(duì)復(fù)雜度”。 定義相對(duì)復(fù)雜度: 通常就是用這個(gè)函數(shù)來表達(dá)時(shí)間序列的復(fù)雜性變化。從這種算法可以看出,完全隨機(jī)的序列C(n)值趨向于1,而有規(guī)律的周期運(yùn)動(dòng)的C(n)值則趨向于0。,檢測(cè)方法 (1)對(duì)語音信號(hào)進(jìn)行分幀、加窗,求解FFT變換,得其頻率分量 x(k); (2)重構(gòu)語音信號(hào),首先根據(jù) ,其中1≤k<N求得語音
20、信號(hào)頻譜均值,然后按照如下公式進(jìn)行語音重構(gòu) (3)對(duì)重構(gòu)后的語音信號(hào)x’(k)按所示流程圖分別求出每幀的KC復(fù)雜 度。,C0復(fù)雜性 一般認(rèn)為復(fù)雜運(yùn)動(dòng)可以是由規(guī)則運(yùn)動(dòng)和隨機(jī)運(yùn)動(dòng)混合而成的。隨機(jī)運(yùn)動(dòng)所占的分額,就是C0復(fù)雜性描述的基礎(chǔ)。假設(shè)有一復(fù)雜運(yùn)動(dòng)的時(shí)間序列x(t),它包含了規(guī)則運(yùn)動(dòng)部分的時(shí)間序列及隨機(jī)運(yùn)動(dòng)時(shí)間序列。它們是怎樣組成x(t)的是一個(gè)復(fù)雜過程。假設(shè)規(guī)則運(yùn)動(dòng)部分時(shí)間序列為xl(t),它
21、與x(t)的關(guān)系為函數(shù)f(x),于是有: 從x(t)中去掉x1(t),剩余部分就是隨機(jī)運(yùn)動(dòng)部分。簡單的,設(shè)有一變換g(x),使得: A0代表了整個(gè)復(fù)雜運(yùn)動(dòng)時(shí)間序列的某種量度,而A1則代表了隨機(jī)運(yùn)動(dòng)部分時(shí)間序列所占的份額。,由此,可定義復(fù)雜性為: 顯然,當(dāng)x1(t)在x(t)中所占份額很大時(shí),C0趨向于O。說明系統(tǒng)的動(dòng)力學(xué)行為幾乎是規(guī)則的不含隨機(jī)成分。反之,當(dāng)x1(t)所占
22、份額很小而隨機(jī)運(yùn)動(dòng)部分時(shí)間序列所占的份額很大時(shí),C0趨向于1時(shí),說明系統(tǒng)的動(dòng)力學(xué)幾乎是完全隨機(jī)的。所以,隨著C0的增加,意味著動(dòng)力學(xué)中的隨機(jī)成分增加。,步驟 (1)對(duì)x(n)作離散傅立葉變換F(●),有: X(k)=F[x(n)] (2)可求出幅度譜的平均值 , k為頻域變量,N為X(k)的長度,即k的最大值。大于平均值的頻率成分被認(rèn)為
23、是規(guī)則部分的貢獻(xiàn),小于或等于平均值的成分則是隨機(jī)部分的貢獻(xiàn),這里只取規(guī)則部分的貢獻(xiàn)。,(3)對(duì)規(guī)則部分貢獻(xiàn)的頻譜X’(k)作傅立葉反變換 ,即得 x1(n)。 所以有: 至此,求得了x1(n),即規(guī)則部分時(shí)間序列。 (4)利用公式 求得復(fù)雜度C0 。,不同語音端點(diǎn)檢測(cè)方法的實(shí)驗(yàn)結(jié)果
24、對(duì)比,實(shí)驗(yàn)條件(1)英文數(shù)據(jù)庫,(2)中文數(shù)據(jù)庫(3)孤立詞庫,中文數(shù)據(jù)庫的采集由學(xué)生,都說普通話,個(gè)別人略帶地方色彩。因語音信號(hào)主要集中在300一3400Hz,所以采用44100Hz的采樣率,采樣位數(shù)16位,采樣通道選用立體聲,每人讀5次,每次通讀十個(gè)詞語一遍。共有250個(gè)有效測(cè)試session共有830MB的數(shù)據(jù)量。說話內(nèi)容選擇的詞語考慮到了漢語中各個(gè)元音、輔音、摩擦音、爆破音和鼻音等各個(gè)不同的漢語因素。,孤立詞中文數(shù)據(jù)
25、庫采集由50名大學(xué)學(xué)生,一般發(fā)音標(biāo)準(zhǔn),個(gè)別人略帶地方色彩,語音信號(hào)主要集中在300一3400Hz,采用44100Hz的采樣頻率,采樣位數(shù)16位,采樣通道選用立體聲,讀26個(gè)英文字母,每次讀一個(gè)英文字母,每人每個(gè)字母讀2次。共有2600個(gè)有效測(cè)試孤立session,共有200MB的數(shù)據(jù)量。,實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果分析 在高信噪比的條件下,上述方法大部分都能正常工作,端點(diǎn)檢測(cè)的準(zhǔn)確率都比較高,但是隨著信噪比的降低,基于能量和基
26、于倒譜距離的語音端點(diǎn)檢測(cè)方法檢測(cè)準(zhǔn)確率急速降低,在低信噪比條件,這兩種方法顯然已經(jīng)不能正常的工作。下面再看另外幾種的比較:,(1)在穩(wěn)定白噪聲條件下,SNR從30dB下降到0dB的過程中,C0復(fù)雜度優(yōu)于KC復(fù)雜度,KC復(fù)雜度優(yōu)于譜熵。在30dB時(shí),三種方法檢測(cè)準(zhǔn)確度都可以達(dá)到100%,但在OdB時(shí),譜熵只有57%的準(zhǔn)確率,KC有70%的準(zhǔn)確率,而C0復(fù)雜度還能達(dá)到82%的準(zhǔn)確率。 (2)在非穩(wěn)定噪聲中的辦公室噪音條件下,C0復(fù)雜
27、度優(yōu)于譜熵,譜熵優(yōu)于KC復(fù)雜度。在30dB時(shí),三種方法檢測(cè)準(zhǔn)確度都可以達(dá)到100%,但在0dB時(shí),KC復(fù)雜度和譜熵都只有40%左右的準(zhǔn)確率,而C0復(fù)雜度還是有65%的準(zhǔn)確率。 所以用譜熵,KC復(fù)雜度和C0復(fù)雜度進(jìn)行端點(diǎn)檢測(cè)的方法都適用于信噪比較小的環(huán)境下的語音端點(diǎn)檢測(cè),但當(dāng)信噪比降到一定程度時(shí),譜熵,KC復(fù)雜度將不適用,而基于C0復(fù)雜性特征的端點(diǎn)檢測(cè)法能夠有效的克服噪聲環(huán)境對(duì)語音端點(diǎn)檢測(cè)系統(tǒng)的影響,適合強(qiáng)健語音識(shí)別系統(tǒng)的要求。,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 語音端點(diǎn)檢測(cè)方法研究.pdf
- 帶噪語音端點(diǎn)檢測(cè)方法的研究.pdf
- 語音信號(hào)端點(diǎn)檢測(cè)方法的研究.pdf
- 噪聲背景下的語音端點(diǎn)檢測(cè)方法研究.pdf
- 基于HMM的噪聲語音端點(diǎn)檢測(cè)方法研究.pdf
- 基于長時(shí)特征的語音端點(diǎn)檢測(cè)方法研究.pdf
- 低信噪比環(huán)境下語音端點(diǎn)檢測(cè)方法研究.pdf
- 語音端點(diǎn)檢測(cè)技術(shù)研究.pdf
- 語音通信中語音端點(diǎn)檢測(cè)技術(shù)的研究.pdf
- 基于統(tǒng)計(jì)模型的語音端點(diǎn)檢測(cè).pdf
- 噪聲環(huán)境下語音信號(hào)端點(diǎn)檢測(cè)的方法研究.pdf
- 基于卷積神經(jīng)網(wǎng)絡(luò)的語音端點(diǎn)檢測(cè)方法研究.pdf
- 漢語連續(xù)語音端點(diǎn)檢測(cè)技術(shù)的研究.pdf
- 語音信號(hào)端點(diǎn)檢測(cè)算法研究.pdf
- 強(qiáng)噪聲環(huán)境下語音信號(hào)端點(diǎn)檢測(cè)方法研究.pdf
- 帶噪語音端點(diǎn)檢測(cè)算法的研究.pdf
- 自適應(yīng)的語音端點(diǎn)檢測(cè)技術(shù)研究.pdf
- 語音信號(hào)端點(diǎn)檢測(cè)算法的研究.pdf
- 基于音頻和視覺特征的語音端點(diǎn)檢測(cè).pdf
- 語音信號(hào)端點(diǎn)檢測(cè)的技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論