壓縮域魯棒音樂識(shí)別算法研究.pdf_第1頁
已閱讀1頁,還剩58頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)字化的音樂伴隨著互聯(lián)網(wǎng)的飛速發(fā)展已經(jīng)成為音樂存儲(chǔ)的主流媒體,并且數(shù)量龐大,按照傳統(tǒng)人工的檢索和識(shí)別音樂,已經(jīng)變得非常困難,并且也不能滿足人們對檢索方式要求。而數(shù)字指紋作為音頻信息檢索的一種自動(dòng)化方式迅速成為了工業(yè)界和學(xué)術(shù)界研究的熱點(diǎn)。數(shù)字音頻指紋是指可以代表一段音樂重要聲學(xué)特征的基于內(nèi)容的緊致數(shù)字簽名,主要目的是建立一種有效機(jī)制來比較兩個(gè)音頻文件的感知聽覺質(zhì)量,可用廣泛的應(yīng)用在在音頻識(shí)別、檢索,內(nèi)容完整性校驗(yàn)等實(shí)際場景。雖然MP3已經(jīng)

2、成為最常見的數(shù)字音樂存儲(chǔ)和傳輸格式,但是絕大多數(shù)已發(fā)表的數(shù)字音頻指紋算法仍是基于非壓縮域如WAV格式的音頻特征,直接作用在壓縮域上的算法尚不多見,且效果一般。
  在本文介紹了音頻指紋系統(tǒng)的基本知識(shí),應(yīng)用場景,大致系統(tǒng)框架和主流算法。講解了壓縮域內(nèi)的基本知識(shí)及其研究情況。在此之上,我們提出了兩大類壓縮域音頻指紋算法,并給出了實(shí)驗(yàn)原理和結(jié)果。
  第一類算法使用的特征為壓縮域內(nèi)頻譜熵,該特征主要利用了壓縮域內(nèi)系數(shù)頻譜熵的統(tǒng)計(jì)特

3、性,使得指紋具有較好的穩(wěn)定性。使得原始片段受到處理后,也不會(huì)破壞這種統(tǒng)計(jì)特性,這樣算出的特征依然保留著較強(qiáng)的穩(wěn)定性。
  第二類算法用到的特征是壓縮域內(nèi)系數(shù)的低階Zemike矩。算法大致過程是使用壓縮域內(nèi)的MDCT系數(shù)構(gòu)成“偽圖片”,計(jì)算“偽圖片”的低Zemike價(jià)矩。而計(jì)算Zernike矩的過程是將原始數(shù)據(jù)進(jìn)行正交分解的過程,依據(jù)Zernike矩的理論特性和實(shí)驗(yàn)證實(shí),高階矩代表了信號(hào)的細(xì)節(jié)分量,容易受到信號(hào)處理的影響,而低階矩則

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論