基于稀疏編碼理論的圖像多標(biāo)簽排序算法研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-05 格式：pdf 頁數(shù)：78 大?。?6.20MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁，還剩77頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、在當(dāng)今高速互聯(lián)網(wǎng)時(shí)代，眾多數(shù)字影像設(shè)備的普及，加上互聯(lián)網(wǎng)技術(shù)的進(jìn)步，互聯(lián)網(wǎng)圖像如今在我們的生活中扮演著越來越重要的角色，網(wǎng)絡(luò)圖像搜索也已經(jīng)成為一個計(jì)算機(jī)視覺領(lǐng)域內(nèi)非?；钴S和相當(dāng)具有挑戰(zhàn)性的研究課題。需要指出的是，與十年前的情況不同，現(xiàn)在的互聯(lián)網(wǎng)使得數(shù)字圖像可以很容易地創(chuàng)建、上傳、共享和分布在互聯(lián)網(wǎng)上。比如Facebook，YouTube，F(xiàn)lickr等社群媒體允許圖像的上載者提供一組能夠描述該圖像的關(guān)鍵詞(亦稱Social Tags)，

2、后系統(tǒng)利用這些關(guān)鍵詞來索引圖像，由于圖像的語義標(biāo)注是通過網(wǎng)絡(luò)由用戶共同協(xié)作來完成的，因此這類圖像集合也被稱為Collaboratively-Tagged Images。這些標(biāo)注信息一方面可以直接作為Web圖像索引，同時(shí)也可被用于自動圖像標(biāo)注技術(shù)研究中的訓(xùn)練樣本。由于Flickr等圖像共享網(wǎng)站上存在著大量的帶標(biāo)簽的圖像集合，這種基于社群標(biāo)注(Social Tagging)的共享方式將會極大地改善互聯(lián)網(wǎng)海量圖像組織及檢索的性能，因而如何更加

3、有效地利用這些帶標(biāo)簽的圖像集合成為改善自動圖像標(biāo)注性能的關(guān)鍵問題之一。
　　需要指出的是，用戶通常是按照隨機(jī)的順序(Random Order)來上傳圖像對應(yīng)的標(biāo)簽，即用戶所提交的標(biāo)簽集合往往并不按照標(biāo)簽與圖像內(nèi)容的語義相關(guān)性(Tag Relevance)的大小進(jìn)行排序。另外，用戶標(biāo)注的關(guān)鍵詞標(biāo)簽集合中存在大量的噪聲標(biāo)簽(Noisy Tags)，而目前Flickr尚沒有提供基于相關(guān)性(Relevance-based Ranking)

4、的檢索排序機(jī)制。這種標(biāo)簽集合隨機(jī)排序的特性制約了海量圖像檢索性能的更進(jìn)一步的應(yīng)用。目前Flickr圖像共享網(wǎng)站提供了兩種圖像排序方式:1.Most Recent:即按照用戶上傳圖像的時(shí)間戳排序;2.Most Interesting:即按照用戶點(diǎn)擊率、評論數(shù)量等排序,但Flickr目前尚不能提供按照語義相關(guān)度檢索的模式。如何依據(jù)關(guān)鍵詞表征圖像的相關(guān)度(Relevance)大小實(shí)現(xiàn)標(biāo)簽排序(Tag Ranking)成為了新的研究熱點(diǎn)。換句話

5、說，盡管基于社群標(biāo)注的共享方式極大地改善了互聯(lián)網(wǎng)海量圖像組織及檢索的性能，然而用戶通常是按照隨機(jī)的順序(Random Order)來上傳圖像對應(yīng)的標(biāo)簽，即用戶所提交的標(biāo)簽集合往往并不按照標(biāo)簽與圖像內(nèi)容的語義相關(guān)性(Tag Relevance)的大小進(jìn)行排序。這種標(biāo)簽集合隨機(jī)排序的特性制約了海量圖像檢索性能的更進(jìn)一步的應(yīng)用，因此標(biāo)簽排序正逐漸成為多媒體研究領(lǐng)域的一個新的熱點(diǎn)。需要指出的是，經(jīng)過語義相關(guān)性排序后的圖像集合，可以作為表征語義關(guān)

6、鍵詞的有效訓(xùn)練樣本，更好地解決區(qū)域?qū)訄D像標(biāo)注中的小樣本學(xué)習(xí)問題。
　　如前所述，社群標(biāo)簽在互聯(lián)網(wǎng)上蔚然成風(fēng)，已經(jīng)成為一種捕述、歸類、檢索內(nèi)容的流行的方式，并已經(jīng)在實(shí)際的社群媒體系統(tǒng)的管理和檢索中獲得了成功的應(yīng)用。鑒于社群標(biāo)簽對于網(wǎng)絡(luò)圖像檢索的重大意義，越來越多的研究人員針對社群圖像標(biāo)簽展開研究。盡管用戶為社群圖像提供了標(biāo)簽來描述圖像的內(nèi)容，由于這些標(biāo)簽是由不同的文化背景、知識結(jié)構(gòu)的網(wǎng)絡(luò)用戶按照自己對圖像內(nèi)容的主觀理解手工輸入的，因

7、此社群圖像的標(biāo)簽的質(zhì)量尚不能直接作為可靠的圖像索引關(guān)鍵詞進(jìn)行基于關(guān)鍵詞的圖像檢索。目前社群圖像的標(biāo)簽主要存在著標(biāo)簽排列的無序性、標(biāo)簽內(nèi)容的不精確性等問題，因此帶標(biāo)簽的社群圖像語義理解主要圍繞著改善標(biāo)簽排序和標(biāo)簽內(nèi)容的精準(zhǔn)度等方面展開。
　　目前已有部分研究機(jī)構(gòu)(如MSRA)針對Tag Ranking問題展開研究。由于一幅圖像可能同時(shí)標(biāo)注有若干個語義語義概念標(biāo)記，這是一個典型的多標(biāo)記學(xué)習(xí)問題，圖像本身具有一定程度的語義歧義性。而實(shí)現(xiàn)

8、標(biāo)簽集合按照語義相關(guān)度進(jìn)行排序，則抽象為一個典型的多標(biāo)記排序(Multi-Label Ranking)問題。目前針對多標(biāo)記學(xué)習(xí)的研究較多，而針對多標(biāo)記排序問題的研究還相對較少。與多標(biāo)記排序問題相似的研究包括樣本典型性排序(Typicality Ranking)和標(biāo)簽排序(Tag Ranking)。
　　現(xiàn)有的針對標(biāo)簽排序(Tag Ranking)的算法大多著力于基于標(biāo)簽相關(guān)度的標(biāo)簽排序(Relevance-based Tag Ra

9、nking)。直觀地，給定一幅圖像和標(biāo)注的標(biāo)簽集合，若標(biāo)簽集合中的某個標(biāo)簽A的相關(guān)度高于標(biāo)簽B，則說明給定圖像表征標(biāo)簽A的典型性高于表征標(biāo)簽B的典型性，即標(biāo)簽A更能表征圖像的語義內(nèi)容。換言之，通過計(jì)算得到的給定圖像的K近鄰圖像子集中，標(biāo)簽A在子集中出現(xiàn)的頻率要更高。這類算法主要有兩種代表性工作。(1)基于統(tǒng)計(jì)模型(Statistical Modeling)的排序算法;(2)基于數(shù)據(jù)驅(qū)動(Data-driven)的算法。基于統(tǒng)計(jì)模型的排序

10、算法利用核密度估計(jì)思想估計(jì)出圖像中每個標(biāo)簽與圖像本身的語義相關(guān)度，其本質(zhì)就是估計(jì)樣本的典型性(Typicality)，如果圖像中表征某個語義標(biāo)簽的區(qū)域的低層視覺特征較為典型，即其與其它標(biāo)有相同標(biāo)簽的區(qū)域的特征向量在特征空間中較為接近，則該標(biāo)簽的語義相關(guān)度就高;同時(shí)考慮到標(biāo)簽之間的語義相關(guān)性,采用隨機(jī)游走算法改善排序結(jié)果，實(shí)現(xiàn)最終的標(biāo)簽排序。然而算法使用基于全局低層視覺特征來表征具有多標(biāo)簽語義的圖像，因此無法較好地估計(jì)出每個標(biāo)簽在特征空間

11、的密度值。而基于數(shù)據(jù)驅(qū)動的排序算法通過簡單的圖像全局特征匹配得到給定圖像的近鄰圖像子集，通過近鄰?fù)镀辈呗?Neighbor-voting)統(tǒng)計(jì)其標(biāo)簽序列中每個關(guān)鍵詞的出現(xiàn)頻度，按照頻度的高低實(shí)現(xiàn)對標(biāo)簽序列的排序。與基于統(tǒng)計(jì)模型的排序算法不同，基于數(shù)據(jù)驅(qū)動的排序算法在選擇待排序圖像的近鄰樣本集合時(shí)，只單純地使用圖像的視覺特征，而無需考量圖像的標(biāo)簽信息。直觀地，由于算法較為簡單，因此基于近鄰?fù)镀睓C(jī)制的標(biāo)簽排序算法在海量圖像數(shù)據(jù)集上體現(xiàn)出了較

12、好的擴(kuò)展性。但需要指出的是，由于這類算法忽略了標(biāo)簽之間的語義相關(guān)性，因此其排序性能不甚理想;其次，該算法亦采用全局視覺特征來表征圖像，因此在圖像相似性度量上無法取得令人滿意的效果。
　　據(jù)此，本文提出了一種改進(jìn)的圖像多標(biāo)簽排序算法，通過引入信號處理領(lǐng)域的稀疏表示理論，將近鄰圖像檢索問題轉(zhuǎn)化為稀疏重構(gòu)問題，以此來改進(jìn)近鄰圖像集合選取的語義相關(guān)性，進(jìn)而改善圖像多標(biāo)簽排序算法的性能。近年來，壓縮感知(Compressed Sensing

13、)和特征選擇的理論與方法結(jié)合，用來對圖像形成更加有效的稀疏表示(Sparse Representation)，成為計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)問題。斯坦福大學(xué)的Tibshirani和加州大學(xué)伯克利分校的Breiman等人幾乎同時(shí)提出了對特征選擇稀疏施以l1-范數(shù)約束的Lasso思想，以促使被選擇出來的特征盡可能稀疏，提高數(shù)據(jù)處理過程的可解釋性(interpretable)和精度。以Lasso為代表的變量選擇方法已成為統(tǒng)計(jì)學(xué)在分析高

14、維數(shù)據(jù)所采用的主流手段。因此，可在稀疏表示基礎(chǔ)上研究圖像語義理解的理論與方法。
　　本文所提出的基于稀疏表示的圖像多標(biāo)簽排序算法的具體思路如下:首先，該算法本質(zhì)上歸屬于基于語義相關(guān)度排序的圖像多標(biāo)簽排序算法。給定一幅待排序測試圖像，以及海量已標(biāo)注社群圖像集合。我們將這幅待排序測試圖像看成是一個待重構(gòu)的測試樣本，而將海量已標(biāo)注社群圖像集合看成是過完備字典。通過稀疏表示理論，我們可以認(rèn)為，待重構(gòu)的測試樣本可以由該過完備字典中的少數(shù)樣本

15、稀疏重構(gòu)得到，并基于學(xué)習(xí)得出的稀疏系數(shù)向量來表征子彈中的每個已標(biāo)注圖像與測試樣本圖像的語義相似度和相關(guān)性。因此，所學(xué)習(xí)得到的稀疏系數(shù)向量中的每個維度表示了測試樣本圖像與字典中每個已標(biāo)注圖像的語義相關(guān)性。最終基于所學(xué)習(xí)得到的語義相關(guān)性來獲得測試圖像的近鄰圖像子集，并利用近鄰?fù)镀辈呗詠斫y(tǒng)計(jì)標(biāo)簽序列中每個關(guān)鍵詞的出現(xiàn)頻度，按照頻度的高低實(shí)現(xiàn)對標(biāo)簽序列的排序。此外，本文所提的算法同時(shí)考慮到標(biāo)記之間的語義相關(guān)性（即共生關(guān)系），采用隨機(jī)游走算法改善

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于稀疏編碼理論的圖像多標(biāo)簽排序算法研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費(fèi)下載