版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、<p> 中文1.1萬字,5820單詞,3萬英文字符</p><p> 出處:Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Confer
2、ence on. IEEE, 2005, 1: 886-893.</p><p><b> 外文譯文</b></p><p> 基于方向梯度直方圖的行人檢測</p><p> 作者: Navneet Dalal , Bill Triggs </p><p><b> 摘要</b>&l
3、t;/p><p> 我們采用基于線性 SVM(支持向量機(jī))的行人檢測作為測試案例來研究關(guān) 于健壯的實(shí)物視覺檢測特征集的問題。在通過實(shí)驗(yàn)測試了現(xiàn)存的所有基于邊緣與 直方圖的特征描述子滯后,我們認(rèn)為在行人檢測的應(yīng)用上,由 HOG(方向梯度 直方圖)提取的特征集明顯優(yōu)于現(xiàn)存的其它特征集。我們研究了各階段計(jì)算對(duì)檢 測性能的影響,得出了這樣的結(jié)論:尺度精細(xì)的梯度,精確的方向分割,相對(duì)粗 略的空間分級(jí)以及在重疊的描述塊中高質(zhì)量
4、的局部對(duì)比度歸一化都對(duì)良好的檢 測結(jié)果起著重要的作用。新方法在檢測原麻省理工學(xué)院行人數(shù)據(jù)庫中的信息時(shí)幾 乎給出了完美的區(qū)分,因此我們引入了一個(gè)更具挑戰(zhàn)的數(shù)據(jù)集,它包含著超過 1800 幅標(biāo)識(shí)的圖像,在這些圖像中行人的姿勢不同,背景各異。</p><p><b> 1.緒論</b></p><p> 鑒于在圖像中人的相貌各不相同、姿勢變化多端,要對(duì)其進(jìn)行檢測
5、是一個(gè)富 有挑戰(zhàn)性的任務(wù)。首先我們需要的是一個(gè)健壯的特征集,在這個(gè)特征集中,即使 是在在光照很差、背景雜亂的情況下,人形也能夠清楚地辨認(rèn)出來。我們對(duì)用于 行人檢測的特征集問題的研究顯示,相對(duì)于現(xiàn)存的包括小波在內(nèi)的其他特征集,基于局部歸一化方向梯度直方圖(HOG)的描述子表現(xiàn)出了極佳的性能。這一描述子讓人聯(lián)想到邊緣方向直方圖,SIFT 描述子和 shape context,但它們的計(jì)算 是基于一個(gè)由均勻間隔的胞元所形成的密集網(wǎng)格,而且為了
6、提高性能,使用了重 疊的局部對(duì)比度歸一化。以“行人檢測”(對(duì)大多可見并呈直立姿勢的人的檢測)為一個(gè)測試案例,我們對(duì)各種實(shí)施的判斷對(duì)檢測器性能的影響做了細(xì)致的研究。為了使整個(gè)研究更為簡單和快速,我們采用了線性SVM為一個(gè)基礎(chǔ)的分類器。新的檢測器在檢測原麻省理工學(xué)院行人數(shù)據(jù)庫中的信息時(shí)表現(xiàn)基本上完美,所以 我們創(chuàng)建了一個(gè)更具挑戰(zhàn)的數(shù)據(jù)集,它包含著超過 1800 幅圖像,在這些圖像中 行人的姿勢不同,背景各異。正在進(jìn)行的工作表明,我們的特征集
7、在進(jìn)行其他的 基于形狀的實(shí)物檢測時(shí)同樣表現(xiàn)良好。</p><p> 在論文的第二部分,我們簡要地討論了在行人檢測方面前人所做的工作,在 論文的第三部分,我們對(duì)自己的方法做了概述,在論文的第四部分,我們介紹了 自己的數(shù)據(jù)庫,在論文的第五和第六部分,我們對(duì)檢測過程的各個(gè)步驟給出了細(xì) 致的描述和實(shí)驗(yàn)評(píng)價(jià)。而在論文的第七部分,則是我們得到的主要結(jié)論。</p><p><b> 2.前
8、人工作</b></p><p> 關(guān)于實(shí)物檢測的文獻(xiàn)為數(shù)眾多,但在這里我們僅僅列舉幾篇與行人檢測相關(guān) 的論文(見參考文獻(xiàn) 18,17,22,16,20)。參考文獻(xiàn) 6 是一份調(diào)查資料。Papageorgio 等人在參考文獻(xiàn) 18 中描述了一種基于多項(xiàng)式核函數(shù) SVM 分類算法的行人檢測 器,它使用修正 Haar 小波作為輸入的描述子,并有一個(gè)基于參考文獻(xiàn) 17 中的思 想變化而來的部件(子窗口)。而
9、 Depoortere 等人在參考文獻(xiàn) 2 中給出一個(gè)更優(yōu) 化的版本。Gavrila 和 Philomen 在慘老文獻(xiàn) 8 中則采取了更直接的辦法,他們提 取了邊緣圖像,并通過倒角距離,將它們與一系列已經(jīng)通過學(xué)習(xí)的例子進(jìn)行匹配。 這些已經(jīng)在參考文獻(xiàn) 7 提及的一個(gè)實(shí)用化的實(shí)時(shí)行人檢測系統(tǒng)中得到了應(yīng)用。Viola 等人在參考文獻(xiàn) 22 中創(chuàng)建一個(gè)高效的移動(dòng)行人檢測器,它使用 adaboost 算法來訓(xùn)練一個(gè)基于 Harr-like 小波和
10、時(shí)空差異的逐步復(fù)雜的區(qū)域拒絕規(guī)則鏈。Ronfard 等人在參考文獻(xiàn) 19 中通過引入基于 SVM 算法和一二階高斯濾波器的肢體分類器而創(chuàng)建了基于關(guān)節(jié)點(diǎn)的人體檢測器 , 這些都處于一個(gè) 類似于F</p><p><b> 3.方法概述</b></p><p> 這一章給出了我們進(jìn)行特征提取流程的概述,參考圖 1 對(duì)其進(jìn)行了總結(jié)。而 整個(gè)流程的細(xì)節(jié)部分我們將在第六章講
11、述。這種方法是基于在一個(gè)密集的網(wǎng)格中 評(píng)估完全歸一化后的圖像梯度方向的局部直方圖。在過去的十年中類似的特征得 到了越來越廣泛的應(yīng)用(見參考文獻(xiàn) 4,5,12,15)。其基本思想是,即使沒有確切 的相關(guān)梯度或邊緣位置的信息,物體局部的外觀和形狀也往往深受局部強(qiáng)度梯度 或者是邊緣方向的影響。在實(shí)際運(yùn)用中,這是通過將圖片窗口劃分成小的空間區(qū) 域(胞元)而實(shí)現(xiàn)的,對(duì)于每個(gè)胞元,都要對(duì)其中的像素的一維梯度方向直方圖 或是邊緣方向進(jìn)行累積統(tǒng)計(jì)。合并
12、后的直方圖就構(gòu)成了被檢測物的特征。為了使 其對(duì)光照、陰影等條件更加不敏感,在使用它們之前進(jìn)行對(duì)比度歸一化也是有必 要的。這一歸一化是通過對(duì)更大的空間區(qū)域(塊)中某一特征的局部直方圖的“能 量”進(jìn)行累積統(tǒng)計(jì),進(jìn)而對(duì)塊上的每一個(gè)胞元進(jìn)行歸一化來實(shí)現(xiàn)的。我們把歸一 化后的描述子塊作為方向梯度直方圖(HOG)描述子。對(duì)行人的檢測工作的流 程包括在由 HOG 描述子組成的密集(事實(shí)上有重疊)的網(wǎng)格上平行滑動(dòng)檢測窗 以及在基于 SVM 的窗口分類器
13、下使用組合特征</p><p> 參考圖 1.對(duì)我們特征提取和實(shí)物檢測流程的概述。檢測窗口由一些平鋪的重疊的塊組成的 網(wǎng)格構(gòu)成,在每個(gè)塊中提取方向梯度直方圖特征向量。合并后的向量送入一個(gè)線性 SVM 進(jìn)行 檢測目標(biāo)\非檢測目標(biāo)分類。這個(gè)檢測窗口會(huì)掃描不同大小的圖片的所有位置,并且傳統(tǒng)的 無最大值限制在輸出端得到應(yīng)用來檢測對(duì)象實(shí)例,但是這篇論文重點(diǎn)在于特征提取的流程。</p><p>
14、以前對(duì)方向直方圖的使用也并不少見(見參考文獻(xiàn)13,4,5),然而,直到把它與局部空間直方圖計(jì)算和歸一化結(jié)合起來時(shí),這一方法才達(dá)到了成熟。Lowe 在參考文獻(xiàn) 12 中將尺度不變特征變換(SIFT)用于寬基線圖像匹配,并給出了 用于尺度不變關(guān)鍵點(diǎn)匹配的底端圖像層描述子?;?SIFT 的算法在這一應(yīng)用中 表現(xiàn)突出(見參考文獻(xiàn) 12,14)。Shape Context 算法則對(duì)胞元和塊得形狀進(jìn)行了 研究(見參考文獻(xiàn)1),盡管它最初只進(jìn)行了邊
15、緣像素的計(jì)數(shù),而沒有運(yùn)用方向 直方圖計(jì)算這一能夠大大提高所提取特征的有效性的方法。這些基于并不常見的 算法的特征的成功稍稍掩蓋了HOG 特征在用作密集圖片描述子時(shí)所表現(xiàn)出的強(qiáng)力和簡單的特性。我們?cè)噲D通過自己的研究來糾正這一點(diǎn)。值得一提的是,我們非正式的實(shí)驗(yàn)表明,在行人檢測這一方面,即使是當(dāng)今最好的基于關(guān)鍵點(diǎn)的方法,也要比我們密集網(wǎng)格的方法在假陽性率上高上 1 到 2 個(gè)數(shù)量級(jí),這主要是因?yàn)樵谖覀兯幕陉P(guān)鍵點(diǎn)的描述子中,沒有一個(gè)能夠?qū)?/p>
16、人體結(jié)構(gòu)進(jìn)行可靠的檢測。</p><p> HOG/ SIFT 特征有幾處優(yōu)點(diǎn)。它不僅捕捉到了極具局部形狀代表性的邊緣或 是梯度結(jié)構(gòu),而且還捕捉到了一個(gè)局部特征,這一特征對(duì)局部的幾何和光學(xué)變換 的不敏感程度容易控制:如果它遠(yuǎn)比局部的空間或是方向區(qū)間小,轉(zhuǎn)換或是旋轉(zhuǎn) 對(duì)它來說就沒什么區(qū)別。對(duì)于行人檢測,粗略空間采樣,精確方向采樣和完全的 光學(xué)條件歸一化才是最理想的策略,這可能是因?yàn)?,只要?duì)象保持大致直立的方 向,
17、可以容忍人的外觀由四肢和軀干各部分的活動(dòng)而帶來的改變。</p><p><b> 4.數(shù)據(jù)庫和方法</b></p><p> 數(shù)據(jù)庫:我們?cè)趦蓚€(gè)不同的數(shù)據(jù)庫中測試了我們的檢測器的效果。第一個(gè)是 完善的麻省理工學(xué)院的行人數(shù)據(jù)庫(見參考文獻(xiàn) 18),含 509 張訓(xùn)練用和 200 張 測試用的以城市風(fēng)光為背景的行人圖片(加上它們的左右影射)。它只包含了前 視和后視圖,
18、而且其中的姿勢的種類也相對(duì)有限,因此我們制作了一個(gè)全新而且 更具挑戰(zhàn)性的數(shù)據(jù)庫“INRIA”,它包含 1805 張 64×128 尺寸的從不同的個(gè)人圖</p><p> 片集中裁剪而來的行人圖片。參考圖 2 顯示了其中的一些樣本。圖片中的人們通 常是站立的姿勢,但他們有可能朝著任何方向,其背景(甚至包括人群)也是多 種多樣。他們中的許多只是路人,所以他們的姿勢就不會(huì)有特殊的偏向。你可以 從以下網(wǎng)址下載
19、到這個(gè)數(shù)據(jù)庫 http://lear.inrialpes.fr/data for research purposes。</p><p> 參考圖 2.以上是我們新的行人檢測數(shù)據(jù)庫中的一些樣本圖片。樣本中的行人大多直立,但 也會(huì)有部分被遮擋,并且姿勢、外表、穿著、光照和背景變化多端。</p><p> 方法:我們選取了其中 1239 張圖片以及它們的左右影射(一共是 2478 張)<
20、;/p><p> 作為正樣本。從 1218 張行人訓(xùn)練用圖片中隨機(jī)抽取的 12180 個(gè)圖片塊組成的固 定集合構(gòu)成了最初的負(fù)樣本集。至于每個(gè)檢測器及其參數(shù)組合的確定,都會(huì)先訓(xùn) 練出一個(gè)基礎(chǔ)的檢測器,然后不斷對(duì) 1218 張訓(xùn)練用負(fù)養(yǎng)本圖片進(jìn)行排查,找出假陽性的例子(即“難例子”)。該方法通過這個(gè)擴(kuò)充集(最初的 12180 個(gè)樣本加上“難例子”)進(jìn)行再訓(xùn)練,就得到了最終的檢測器。如果有必要的話,可以對(duì)“難例子”集進(jìn)行
21、二次采樣,這樣最終訓(xùn)練集得描述子在進(jìn)入 SVM 訓(xùn)練之前就恰好能占據(jù) 1.7Gb 的 RAM 容量。這一再訓(xùn)練的過程極大地提高了每一個(gè)檢測器的性能(在對(duì)我們默認(rèn)檢測器進(jìn)行的在窗口假陽性測試(FPPW)中在 10-4 數(shù)量 級(jí)上提高了 5%),但更多次數(shù)的再訓(xùn)練并沒有多大區(qū)別,所以我們沒有再進(jìn)行下去。</p><p> 為了能夠定量地分析檢測器的性能,我們繪制了權(quán)衡檢測誤差的對(duì)數(shù)尺度曲線,即漏檢率(1—檢出率或者
22、是假陰率/真陽率與假陰率的和)對(duì)比誤檢率。其值越低則檢測器效果越好。DET 圖表在各類報(bào)告和美國國家標(biāo)準(zhǔn)技術(shù)研究院(NIST)的評(píng)估中得到了廣泛的應(yīng)用。它們傳達(dá)了類似接收端工作特性(ROC’s)的信息,但讓小概率的事件更容易加以區(qū)分。我們通常將漏檢率在10-4 數(shù)量級(jí)的窗口假陽性測試中用作參考點(diǎn)以得出結(jié)論。這有些專斷,但我們并沒有更多像位于 ROC 以下的區(qū)域這樣的可以觀測的指標(biāo)。在一個(gè)多尺度的檢測器中,針對(duì)每幅 640×4
23、80 的測試圖像都給出80%為假陽性的原始錯(cuò)誤率(由于沒有最大值的限制,整個(gè)檢測器的假陽率甚至都比它低)。我們的DET曲線的高度非常低,因此即使是在漏檢率上非常小的改進(jìn),也與在固定漏檢率下的窗口假陽性測試中大的提高相當(dāng)。例如,在10-4 數(shù)量級(jí)的窗口假陽性測試中,對(duì)于我們默認(rèn)的檢測器,在漏檢率上每 1%絕對(duì)的(9%相對(duì))的減少相當(dāng)于在在固定漏檢率下的窗口假陽 性測試中減少 1.57 倍。</p><p&
24、gt;<b> 5.檢測結(jié)果概述</b></p><p> 在進(jìn)行具體的檢測流程和性能分析之前,我們將基于 HOG 特征的檢測器總 體性能與現(xiàn)存的其它方法的性能作了比較。即將基于矩形特征(R-HOG)或是 環(huán)形指數(shù)極坐標(biāo)特征(C-HOG)塊和線性或核心 SVM 算法的檢測器分別同基于 Haar 小波,PCA-SIFT 和 shape context 的作了比較。簡而言之,這些方法如下所&
25、lt;/p><p> 示:廣義的 haar 小波:這是一個(gè)面向類 Harr 小波的擴(kuò)展特征集,它與參考文獻(xiàn)17 中所用到的類似,但性能上占優(yōu)。這些特征是通過 9×9 和 12×12 大小、以 45 度為間隔的面向一階和二階導(dǎo)數(shù)盒子濾波器以及對(duì)應(yīng)的二階導(dǎo)數(shù)直角坐標(biāo)濾波 器修正而來的參數(shù)。</p><p> PCA-SIFT:這些描述子是通過將梯度圖像投影到用 PCA 對(duì)圖
26、像進(jìn)行訓(xùn)練學(xué)習(xí)后得到的基礎(chǔ)上而產(chǎn)生的(見參考文獻(xiàn) 11)。Ke和Sukthankar 發(fā)現(xiàn)這些特征 在基于關(guān)鍵點(diǎn)的匹配上表現(xiàn)比 SIFT 更加優(yōu)秀,但這是有爭議的(見參考文獻(xiàn) 14)。 我們實(shí)驗(yàn)中使用擁有相同導(dǎo)數(shù)級(jí)、重疊等特點(diǎn)的 16×16 大小的塊做為 HOG 描述 子。依據(jù)訓(xùn)練用的正樣本圖像,我們對(duì) PCA 的基礎(chǔ)參數(shù)做了計(jì)算。</p><p> Shape Contexts:最初的 Shape
27、Contexts(見參考文獻(xiàn) 1)是用二進(jìn)制的邊緣 信息在指數(shù)極坐標(biāo)的區(qū)間內(nèi)投影,而并沒有考慮邊緣方向的因素。我們使用 C-HOG 描述子(如下所示)以及一個(gè)方向區(qū)間來模擬這種算法。16 種角度和 3 段散開的間隔加上內(nèi)徑的 2 個(gè)像素與外徑的 8 個(gè)像素的參數(shù)設(shè)置給出了最佳的結(jié) 果?;谔荻葟?qiáng)度信息和邊緣信息的投影都進(jìn)行了測試,其中邊緣閾值能夠自主 設(shè)定以最大化檢測器的性能(這些值在某種意義上可變,并都是從 20 到 50 灰度 級(jí)別
28、的區(qū)域中選取的)。</p><p> 實(shí)驗(yàn)結(jié)果:參考圖 3 顯示了各種檢測器在檢測麻省理工學(xué)院和 INRIA 數(shù)據(jù) 庫時(shí)所表現(xiàn)的性能?;贖OG的檢測器表現(xiàn)出來的性能 要比基于小 波、 PCA-SIFT 和 Shape Context 的要好得多,它在檢測麻省理工學(xué)院的數(shù)據(jù)庫時(shí)作 出了幾乎完全正確的判別,而在檢測 INRIA 數(shù)據(jù)庫時(shí)則將誤檢率降低了一個(gè)數(shù) 量級(jí)。由于對(duì)輸出向量進(jìn)行了二階求導(dǎo)和對(duì)比度歸一化,我們
29、的類 Haar 小波特 征也比麻省理工學(xué)院的小波特征表現(xiàn)得更為突出。參考圖 3也向我們展示了麻省理工學(xué)院最好的基于部分和整體的檢測器(這些信息是從參考文獻(xiàn)17中得來),然而,想進(jìn)行一個(gè)確切的比較是不太可能的,這是因?yàn)槲覀儾恢绤⒖嘉墨I(xiàn) 17 的數(shù)據(jù)庫中的信息是怎樣分成訓(xùn)練樣本和測試樣本的,并且我們也沒能得到副樣 本。最終矩形(R-HOG)和環(huán)形(C-HOG)表現(xiàn)出的性能極為相似,其中 C-HOG 稍稍占優(yōu)。使用 增廣R-HOG 特 征結(jié)
30、合原始的塊檢測器(面向二階導(dǎo)數(shù)—“R2-HOG”)會(huì)將要提取的特征尺寸擴(kuò)大一倍,但最終能夠提高檢測性能(窗口假陽性測試中在 10-4 數(shù)量級(jí)上提高 2%)。將線性 SVM 算法替換成高</p><p> 參考圖 3.被選中測試的檢測器在(左側(cè))麻省理工學(xué)院和(右側(cè))INRIA 數(shù)據(jù)庫表現(xiàn)出的性能。 詳細(xì)內(nèi)容見論文中的表述。</p><p> 6.檢測流程與性能分析</p>
31、<p> 現(xiàn)在我們給出 HOG檢測流程并系統(tǒng)地分析一下不同的判斷對(duì)檢測性能的影 響。在這一章中我們所得到的結(jié)果都是由有著如下特性的默認(rèn)檢測器得出的,具 體如下所示:RGB 色度空間且沒有伽馬校正;非平滑的[?1, 0, 1]梯度濾波器;線 性梯度在 0?–180?區(qū)間內(nèi)向九個(gè)方向的投影;16×16 像素塊以及 8×8 的像素胞元;高斯 σ= 8 像素空間窗口;L2-Hys(Lowe 式修正二級(jí)標(biāo)準(zhǔn))塊歸
32、一化;8 像素的 塊滑動(dòng)增量(因此每個(gè)胞元會(huì)被掃描 4 次);64×128 檢測窗口;線性 SVM 分類器。</p><p> 參考圖 4 顯示了不同的 HOG 特征參數(shù)對(duì)整體檢測性能的影響。這些在下面 的章節(jié)中將被仔細(xì)研究。主要的結(jié)論是,要想達(dá)到好的檢測效果,一個(gè)檢測器必 須用到適當(dāng)?shù)膶?dǎo)數(shù)級(jí)(基本上無平滑處理),更多方向區(qū)間,以及大小合適、歸 一化徹底并且重疊的描述塊。</p><
33、;p> 參考圖 4.詳細(xì)內(nèi)容見論文中的表述。</p><p> 6.1 伽馬/歸一化</p><p> 我們選擇性地運(yùn)用伽馬均衡評(píng)估了輸入像素的幾個(gè)特征,包括灰度級(jí),RGB 和 LAB 色度空間?;蛟S是因?yàn)楹竺娴拿枋鲎託w一化達(dá)到了類似的效果,這些歸 一化對(duì)檢測性能的影響不大。如果可以的話,我們也會(huì)使用色度信息。RGB 和 LAB 色度空間對(duì)檢測性能的影響類似,但是真正的阻礙在
34、于灰度級(jí),它使得檢 測性能在窗口假陽性測試中在 10-4 數(shù)量級(jí)上下降了 1.5%。對(duì)每個(gè)顏色通道進(jìn)行 平方根的伽馬壓縮會(huì)使檢測性能有小幅的提高(窗口假陽性測試中在10-4數(shù)量級(jí)上提高1%),但使用對(duì)數(shù)壓縮,壓縮幅度就太大了,會(huì)使檢測性能惡化,在10-4數(shù)量級(jí)的窗口假陽性測試中下降2%。</p><p><b> 6.2 梯度計(jì)算</b></p><p> 檢測器
35、性能的好壞對(duì)梯度計(jì)算的方式十分敏感,然而最簡單的方式卻是最有 效的。在梯度計(jì)算時(shí),我們對(duì)使用高斯平滑然后再加以離散導(dǎo)數(shù)掩膜的效果進(jìn)行 了測試。我們嘗試了若干平滑尺度,包括 σ=0(即不進(jìn)行高斯平滑)。我們還對(duì) 多種掩膜進(jìn)行了實(shí)驗(yàn),包括不同的一維單點(diǎn)導(dǎo)數(shù)掩膜(無中心點(diǎn)的[?1, 1]、有中 心點(diǎn)的[?1, 0, 1]和三次校正的[1,?8, 0, 8,?1])、3×3 的 Sobel 掩膜和 2×2 的對(duì)角掩 膜(最密
36、集的二維導(dǎo)數(shù)掩膜)。使用面積更大的掩膜似乎總會(huì)降低檢測性能,而 對(duì)高斯導(dǎo)數(shù)而言,進(jìn)行平滑會(huì)顯著地降低檢測性能,σ 的值從 0 上升到 2,窗口 假陽性測試中檢測率會(huì)在 10-4 數(shù)量級(jí)上從 89%下降到 80%。當(dāng) σ=0 時(shí),一維三 次校正五次濾波掩膜在性能上會(huì)比掩膜為[?1, 0, 1]的窗口假陽性測試中在 10-4 數(shù)量級(jí)上差 1%,然而 2×2 的對(duì)角掩膜會(huì)差 1.5%。使用無中心點(diǎn)的導(dǎo)數(shù)掩膜[?1, 1] 同樣會(huì)降低
37、檢測性能(窗口假陽性測試中在 10-4 數(shù)量級(jí)上下降 1.5%),這大概是 由方向信息估值受到基于不同中心得直角坐標(biāo)濾波器的影響所造成的。</p><p> 對(duì)于彩色圖像,我們會(huì)對(duì)每一個(gè)顏色通道計(jì)算各自的梯度,并且取其中幅值 最大的為像素的梯度向量。</p><p><b> 6.3 方向區(qū)間</b></p><p> 接下來的是基本為非
38、線性的描述子。計(jì)算每個(gè)像素對(duì)基于以自身為中心的方 向梯度元素的邊緣方向直方圖通道的加權(quán)投影,并且將這些投影累積到我們叫做 胞元的局部空間區(qū)域中的方向區(qū)間。胞元可以是長方形的或是環(huán)形的(對(duì)數(shù)級(jí)區(qū) 域)。方向區(qū)間在 0?–180?(“無符號(hào)”梯度)或是 0?–360?(“有符號(hào)”梯度)之間 均勻分布。為了減少混疊,我們對(duì)每個(gè)投影在方向和位置上都進(jìn)行了鄰近區(qū)間的 雙線性插值。這些投影是像素梯度幅值的函數(shù),無論是幅值本身,還是它的平方、 它的平
39、方根或是一種修正的幅值都代表了在像素邊緣的軟存在/缺失。在實(shí)際應(yīng) 用中,使用幅值本身能夠達(dá)到最好的效果。而取它的平方根會(huì)使檢測性能稍微降 低,使用二進(jìn)制邊緣信息投影則會(huì)大大降低檢測性能(窗口假陽性測試中在10-4 數(shù)量級(jí)上下降 5%)。</p><p> 精確的方向編碼對(duì)于好的檢測性能是必不可少的,而(見下文)空間分割就 可以相當(dāng)粗糙了。如參考圖 4(b)所示,增加方向區(qū)間的數(shù)量直到 9 個(gè)都能顯</p&
40、gt;<p> 著地提高檢測性能,但是再增加的話效果就不明顯。這是對(duì)于位于 0?–180?的方 向區(qū)間而言,也就是說梯度的“符號(hào)”忽略不計(jì)。即使方向區(qū)間的數(shù)量也加倍以 保持原有的方向分辨率,有符號(hào)梯度(方向區(qū)間位于 0?–360?,如最原始的 SIFT 描述子)還是會(huì)降低檢測性能。對(duì)于人類而言,穿著和背景顏色的多種多樣可能 會(huì)使得符號(hào)的標(biāo)識(shí)不能提供任何有用信息。然而,不要忘記有符號(hào)的信息確實(shí)在 其它的實(shí)物檢測中大幅提高了
41、其檢測性能,如汽車、摩托車檢測。</p><p> 6.4 歸一化和描述塊</p><p> 由于局部光照和前景背景對(duì)比的差異,梯度幅值分布在一個(gè)很寬的范圍之 內(nèi),因此有效的局部對(duì)比度歸一化對(duì)好的檢測性能就顯得尤為重要。我們?cè)u(píng)估了 許多不同的歸一化方案。大多數(shù)方案都是將胞元分組到更大的區(qū)域塊中并將每個(gè) 塊分別進(jìn)行對(duì)比歸一化。然后,在檢測窗口中的所有圖像塊返回的歸一化胞元的 所有部分組成
42、的向量就是最終的描述子。事實(shí)上,我們通常會(huì)使各塊重疊,這樣 就能使每個(gè)標(biāo)量的胞元返回值同時(shí)對(duì)最終的描述子中的幾個(gè)部分產(chǎn)生作用,其中 不同的塊都進(jìn)行了歸一化。這似乎是多此一舉,但是良好的歸一化非常關(guān)鍵,并 且包括重疊在內(nèi)的措施顯著地提高了檢測性能。參考圖 4(d)表明,由于我們 加入了重疊,從無(步長 16)到 16 倍區(qū)域/4 倍線性覆蓋(步長 4),使得檢測性 能在窗口假陽性測試中在 10-4 數(shù)量級(jí)上上升了 4%。</p>
43、;<p> 我們?cè)u(píng)估了兩類幾何形狀的塊,正方形或長方形的塊被分割成正方形或長方 形空間胞元的網(wǎng)格,而環(huán)形的塊則被分割成對(duì)數(shù)極的形態(tài)。我們將這兩種不同的 塊分別叫做 R-HOG 和 C-HOG(代表方形和環(huán)形 HOG)。</p><p> R-HOG: R-HOG 與 SIFT 描述子(見參考文獻(xiàn) 12)有很多相同點(diǎn),但用法卻 有很多差異。它們經(jīng)過在密集網(wǎng)格中以單一的大小且沒有定向?qū)R的計(jì)算,并作
44、 為與檢測窗口相關(guān)的隱式編碼空間的一個(gè)更大的編碼向量的一部分,而 SIFT 描 述子則是在一個(gè)稀疏的關(guān)鍵點(diǎn)集中計(jì)算,通過旋轉(zhuǎn)使其方向?qū)R,然后單獨(dú)使用。 SIFT描述子適合稀疏的寬基線匹配,而R-HOG.描述子則適合致密健壯的空間形 態(tài)編碼。其它類似的描述子包括 Freeman 和 Roth 在參考文獻(xiàn) 4 中提到的邊緣方 向直方圖。我們通常使用方形的 R-HOG.描述子,即由 η×η 像素胞元組成的 ?×? 網(wǎng)格,
45、而每個(gè)網(wǎng)格中有 β 個(gè)方向區(qū)間,在這里 ?,η,β 都是描述子的參數(shù)。</p><p> 參考圖 5 繪制了窗口假陽性測試中在 10-4 數(shù)量級(jí)上胞元大小以及胞元構(gòu)成的 塊的大小與漏檢率的關(guān)系。對(duì)于行人檢測而言,6×6 像素組成的胞元以及 3×3 這 樣的胞元組成的塊表現(xiàn)出來的檢測性能最好,在窗口假陽性測試中在 10-4 數(shù)量級(jí)上漏檢率為 10.4%。我們的標(biāo)準(zhǔn)是 8×8
46、像素組成的胞元以及 2×2 這樣的胞元組成 的塊,它表現(xiàn)出的性能與前者非常接近,排在第二位。事實(shí)上,不論塊大小如何, 胞元寬度為 6 到 8 個(gè)像素時(shí)表現(xiàn)出的性能最佳——這與人類的肢體大概就在圖像 中占 6—8 個(gè)像素是一個(gè)有趣的巧合。2×2 和 3×3 個(gè)胞元組成的塊效果最好。隨 著塊變得更大,局部圖像信息會(huì)相應(yīng)地被弱化,而塊太</p><p> 小時(shí)(1×1胞元組成的
47、塊, 也就是只在方向上進(jìn)行歸一化),重要的空間信息就得不到運(yùn)用。</p><p> 參考圖 5.不同胞元和塊大小在窗口假陽性測試中在 10-4 數(shù)量級(jí)上的漏檢率?;瑝K(塊重疊) 固定為塊大小的一半。3×3 個(gè)由 6×6 個(gè)像素組成的胞元構(gòu)成的塊的檢測性能最佳,漏檢率 為 10.4%。</p><p> 正如參考文獻(xiàn) 12 中所說,在累積計(jì)算方向在胞元上的投影之前,通
48、過使用</p><p> 高斯空間窗口濾波減小在塊邊緣的像素的權(quán)重是有必要的。這樣做在使用 σ 值為 塊大小一半的高斯濾波時(shí)能夠使檢測性能在窗口假陽性測試中在 10-4 數(shù)量級(jí)上 提高 1%。</p><p> 我們也在整個(gè)描述子之內(nèi)嘗試了多種大小的塊和胞元組合。這能稍稍提高檢 測性能(在窗口假陽性測試中在 10-4 數(shù)量級(jí)上大約提高 3%),其代價(jià)是會(huì)大大增 加描述子的大小。<
49、/p><p> 除了方形的 R-HOG 塊,我們也測試了垂直的(2×1 胞元)和水平的(1×2 胞元)的塊以及一個(gè)既有水平部分也有垂直部分的描述子。垂直的和垂直加水平 的塊比只有水平的在性能上明顯要好得多,但不如 2×2 或 3×3 個(gè)胞元組成的塊(窗口假陽性測試中在 10-4 數(shù)量級(jí)上差 1%)。</p><p> C-HOG:我們的環(huán)形塊狀描述子
50、(C-HOG)容易讓人聯(lián)想到 Shape Contexts, 但其中最重要的區(qū)別在于,每個(gè)胞元空間都包含了一堆有梯度權(quán)重的方向胞元而 不是單一的與方向無關(guān)的邊緣信息計(jì)數(shù)。對(duì)數(shù)極網(wǎng)絡(luò)原本是基于這樣一個(gè)思想, 那就是它可以將鄰近結(jié)構(gòu)的精確編碼與邊遠(yuǎn)區(qū)域的粗略編碼相結(jié)合,而事實(shí)上從 從視覺領(lǐng)域轉(zhuǎn)換到靈長類動(dòng)物的大腦中的影像也是對(duì)數(shù)變換(見參考文獻(xiàn)21)。 然而,小型且徑向區(qū)間很少的描述子表現(xiàn)出的性能最佳,因此在實(shí)際應(yīng)用中幾乎 沒有不均勻參數(shù)或
51、是相關(guān)背景。我們也可以把C-HOG描述子簡單地比作一種先 進(jìn)的中心環(huán)繞編碼方式。</p><p> 我們?cè)u(píng)估了兩種不同幾何形狀的C-HOG,其中之一是單一的環(huán)形中心胞元(與參考文獻(xiàn) 14 中提到的 GLOH 相似),另外一個(gè)是中心胞元被劃分成幾個(gè)類 似 shape contexts 中的角度區(qū)域。由于環(huán)形中心胞元的 C-HOG 比中心分割的 C-HOG 在實(shí)際應(yīng)用中表現(xiàn)相同性能時(shí)所需的空間胞元更少,因此我們只對(duì)
52、前者 進(jìn)行實(shí)驗(yàn)并得出結(jié)果。技術(shù)報(bào)告將提供進(jìn)一步的細(xì)節(jié)。這種C-HOG描述子總體有四個(gè)參數(shù):角度和徑向區(qū)間的數(shù)量;中心區(qū)間像素的半徑;其它區(qū)間半徑的補(bǔ) 償值。良好的檢測性能需要至少兩個(gè)徑向區(qū)間(一個(gè)中心和一個(gè)周邊)和四個(gè)角度區(qū)間(四等分)。包含額外的徑向區(qū)間不會(huì)使檢測性能有太大的改變,而增加角度區(qū)間則會(huì)使檢測性能下降(區(qū)間數(shù)目從 4 增長到 12,在窗口假陽性測試中 在 10-4 數(shù)量級(jí)上下降 1.3%)。4 像素是中心區(qū)間最佳的半徑大小
53、,但 3 個(gè)或是 5個(gè)得到的檢測效果區(qū)別不大。將補(bǔ)償參數(shù)從 2 提高到 3 基本上不會(huì)改變檢測性能。這些參數(shù)一經(jīng)確定,對(duì)其進(jìn)行高斯空間加權(quán)或是逆加權(quán)都不會(huì)改變檢測性能,但 是把二者結(jié)合起來就會(huì)讓性能稍微降低。得到這些值需要精確的方向采樣。Shap</p><p> 塊歸一化方案:我們對(duì)以上每種幾何形狀的HOG都測試了四種不同的歸一優(yōu)化方案。令 v 為未歸一化的描述子向量,||v||k 為它的 k-范數(shù)(k=1,
54、2),</p><p> 而ε為一個(gè)值為小的常數(shù)。具體方案是:</p><p><b> (a)L2-范數(shù);</b></p><p><b> ?。?lt;/b></p><p> ?。╞)L2-Hys,取 L2-范數(shù)之后再進(jìn)行裁剪(將 v 的最大值限制在 0.2 之內(nèi))并且如參考文獻(xiàn) 12中所說進(jìn)行
55、反歸一化;</p><p> ?。╟)L1-范數(shù),;</p><p> 還有(d)L1-sqrt,取L1-范數(shù)之后再取平方根,</p><p> 這相當(dāng)于將描述子向量用作率分布并且利用他們之間的 Bhattacharya 距離。參考圖 4(c)顯示,L2-Hys, L2- 范數(shù)和 L1-sqrt 表現(xiàn)出的性能一樣好,而單一的 L1-范數(shù)會(huì)使檢測性能在窗口假 陽性
56、測試中在 10-4 數(shù)量級(jí)上下降 5%,而完全不進(jìn)行歸一化則會(huì)使其下降 27%。 由于我們對(duì)包括空的部分的所有描述子進(jìn)行密集地估值,因此需要一個(gè)規(guī)則化因 子ε,但檢測結(jié)果卻在一個(gè)大的區(qū)間內(nèi)對(duì)ε的值十分敏感。</p><p> 中心周邊歸一化:我們同樣也評(píng)估了另一種中心周邊式的胞元?dú)w一化方案,其中圖像被劃分為一系列平鋪的胞元組成的網(wǎng)格,而對(duì)每個(gè)胞元而言,它的總權(quán) 重和周圍區(qū)域(統(tǒng)計(jì)了方向信息并集中使用了高斯加權(quán)濾
57、波)被用來對(duì)該胞元進(jìn) 行歸一化。然而,正如參考圖4(c)(“窗口規(guī)范”)所示,這種方法與對(duì)應(yīng)的基 于塊的方案相比降低了檢測性能(在窗口假陽性測試中在 10-4 數(shù)量級(jí)上下降 2%, 濾波時(shí)胞元寬度σ=1)。其中的一個(gè)原因是塊之間不再重疊,這樣每個(gè)胞元在最 終的描述子里僅僅編碼計(jì)算一次。基于不同濾波尺度σ的胞元中加入幾種歸一化 并不能明顯地改變檢測性能,因此,在這里似乎是幾處濾波區(qū)域的存在和相關(guān)胞 元中空間區(qū)域的偏移顯得更為重要,而不是濾
58、波的尺度。</p><p> 為了解釋清楚這一點(diǎn),我們考慮使用了包含重疊塊的 R-HOG 檢測器。根據(jù) 線性 SVM 訓(xùn)練所得的系數(shù)來賦予每個(gè)塊中的每個(gè)胞元在最終的判決中應(yīng)占的權(quán) 重。仔細(xì)分析參考圖 6(b,f)就能得出,通常那些包含人體輪廓(特別是頭, 肩和腳)的才是最重要的胞元,歸一化時(shí)與輪廓周圍的胞元相關(guān)。換句話說—除 了在我們的訓(xùn)練集中常見的復(fù)雜混亂的背景—檢測器主用關(guān)注的是輪廓線條與 背景的對(duì)比,而不
59、是內(nèi)部邊緣信息或輪廓線條與前景的對(duì)比。服裝圖案與行人姿</p><p> 態(tài)的千變?nèi)f化可能會(huì)使內(nèi)部區(qū)域信息不能用作可靠的檢測依據(jù),而前景到輪廓的 轉(zhuǎn)換同樣可能會(huì)受到平滑著色和陰影效果的混淆。相似的是,參考圖 6(c,g) 證明了人體內(nèi)部的直方圖(尤其是垂直的)通常算作反面的檢測依據(jù),這可能是 因?yàn)樗陂L的垂線一定與垂直的頭部與腿部胞元相關(guān)的基礎(chǔ)之上減少了誤報(bào)。</p><p> 參考圖
60、 6.我們的 HOG 檢測器主要的檢測線索是輪廓線條(特別是頭部,肩膀和腳)。最有用 是以正好在輪廓外圍的圖片背景為中心的塊。參考圖 a:訓(xùn)練樣本的平均梯度圖像。參考圖 b:每個(gè)“像素”顯示在塊中的最大正 SVM 權(quán)重。參考圖 c:與上圖對(duì)應(yīng)的負(fù) SVM 權(quán)重。參 考圖 d:一張測試圖像。參考圖 e:由這張圖像計(jì)算而來的 R-HOG 描述子。參考圖(f,g): 該 R-HOG 分別在 SVM 中的正負(fù)權(quán)重。</p><
61、;p> 6.5 檢測窗口與背景</p><p> 我們 64×128 的檢測窗口包含了在人四周邊緣的約16 個(gè)像素。參考圖(e)</p><p> 表明這一邊界提供了大量有助于檢測的信息。將這個(gè)邊界從16 個(gè)像素降至 8 個(gè)像素(即 48×112 的檢測窗口)會(huì)使檢測性能在窗口假陽性測試中在 10-4 數(shù)量級(jí)上下降下降 4%。保持 64×128 的
62、檢測窗口大小不變,增大窗口中人的大小(同 時(shí)減少邊界像素個(gè)數(shù))會(huì)導(dǎo)致類似的檢測性能下降,即便人的分辨率確實(shí)是上升 了。</p><p><b> 分類器</b></p><p> 默認(rèn)情況下,我們使用一個(gè)軟(C=0.01)線性 SVM 和參考文獻(xiàn) 10 中的 SVMLight(略作修改以減少在處理高密度描述子向量問題時(shí)內(nèi)存的占用率)來 訓(xùn)練。使用高斯核心 SVM
63、能夠使檢測性能在窗口假陽性測試中在 10-4 數(shù)量級(jí)上 提高3%,其代價(jià)是檢測時(shí)間會(huì)大大增長。</p><p><b> 分析</b></p><p> 總的來說,在這項(xiàng)工作中有幾個(gè)值得注意的發(fā)現(xiàn)。HOG 的檢測性能大大強(qiáng) 于小波,并且在計(jì)算梯度之前任何相當(dāng)程度的平滑都會(huì)損害 HOG 的檢測效果, 這些事實(shí)都強(qiáng)調(diào)了大部分的圖像信息都來源于合適尺度的陡峭邊緣,而將其
64、模糊 化以希望達(dá)到減少對(duì)空間位置的敏感性的做法是不可取的。相反,應(yīng)該在最適合 的尺度下在現(xiàn)有的層次計(jì)算梯度,修正或是利用方向投影的方法,而之后才能進(jìn) 行空間模糊。鑒于此,相對(duì)粗糙的空間量化就足夠了(胞元中 6 到 8 個(gè)像素的寬/一段肢體的寬度)。另一方面,至少是對(duì)于行人檢測而言,它對(duì)于方向信息的采</p><p> 樣更為精確,而小波和 shape contexts 在這方面就差遠(yuǎn)了。其次,徹底的局部對(duì)比度歸
65、一化對(duì)于好的檢測結(jié)果是必要的,而傳統(tǒng)的中心周邊式的方案則不是最好的選擇。要達(dá)到更好的效果,需要?dú)w一化與不同局域特征相關(guān)所有的元素(邊緣信息,胞元)數(shù)次,并且將這些結(jié)果當(dāng)作獨(dú)立的標(biāo)識(shí)。在我們標(biāo)準(zhǔn)的檢測器中,每個(gè) HOG 胞元在不同的歸一化中一共用到四次,而將 這一“重復(fù)”的信息加入進(jìn)來能夠使檢測率在窗口假陽性測試中在 10-4 數(shù)量級(jí)上 從 84%提高到 89%。</p><p><b> 7.結(jié)論&l
66、t;/b></p><p> 我們已經(jīng)表明,在密集重疊的網(wǎng)格中,使用與參考文獻(xiàn) 12 中提到的 SIFT 描述子類似的局部歸一化方向梯度直方圖,在行人檢測方面效果甚佳,比參考文 獻(xiàn) 17 中提到的最好的基于 Haar 小波特征的檢測器在假陽率上減少了超過一個(gè)數(shù)量級(jí)。我們研究了各種描述子參數(shù)對(duì)檢測性能的影響,總結(jié)得出,合適大小的梯度,精確的方向區(qū)間劃分,相對(duì)粗糙的空間區(qū)域劃分和在重疊的描述子塊中高質(zhì) 量的局
67、部對(duì)比度歸一化對(duì)于好的檢測性能來說都很重要。我們也創(chuàng)建了一個(gè)新的且更具挑戰(zhàn)性的行人數(shù)據(jù)庫,并將其公之于眾。</p><p> 未來的工作:雖然我們目前的線性 SVM 檢測器相當(dāng)高效—檢測一張 320×240 的圖片(4000 檢測窗口)用時(shí)不到一秒—但是仍有繼續(xù)優(yōu)化的空間,并能夠在未來加快檢測的速度,在開發(fā)從粗到精或是基于 HOG 描述子的拒絕鏈?zhǔn)綑z測器 時(shí)派上用場。我們也研究了基于 HOG 描述子的
68、檢測器,它將塊匹配或是光學(xué)流 動(dòng)區(qū)域有機(jī)地結(jié)合起來。最后,盡管現(xiàn)在的固定模板式檢測器在總體可見的行人檢測方面難以被超越,鑒于人類有高度的關(guān)節(jié)性,我們還是相信加入一個(gè)局部空 間有更大不變性的基于部分的模型將會(huì)使檢測性能在更廣泛的領(lǐng)域得到提高。</p><p><b> 致謝</b></p><p> 這項(xiàng)工作得到了研究項(xiàng)目 ACEMEDIA 和 PASCAL 的幫助
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2005年--外文翻譯--基于方向梯度直方圖的行人檢測(譯文).docx
- 2005年--外文翻譯--基于方向梯度直方圖的行人檢測(譯文).docx
- 2005年--外文翻譯--基于方向梯度直方圖的行人檢測
- 2005年--外文翻譯--基于方向梯度直方圖的行人檢測
- 2005年--外文翻譯--基于方向梯度直方圖的行人檢測(英文)
- 2005年--外文翻譯--基于方向梯度直方圖的行人檢測(英文).pdf
- 2005年--外文翻譯--基于方向梯度直方圖的行人檢測(英文).pdf
- [雙語翻譯]--外文翻譯--基于方向梯度直方圖的行人檢測
- 基于梯度方向直方圖的行人檢測方法研究.pdf
- 基于梯度方向直方圖的行人計(jì)數(shù)方法研究.pdf
- 基于時(shí)空興趣點(diǎn)和梯度直方圖的行人檢測.pdf
- 基于梯度方向直向直方圖和支持向量機(jī)的行人檢測方法研究.pdf
- 基于梯度方向直向直方圖和支持向量機(jī)的行人檢測方法研究(1)
- 基于擴(kuò)展梯度直方圖的行人檢測及姿態(tài)估計(jì)研究.pdf
- 基于共生梯度方向直方圖的實(shí)時(shí)人手檢測系統(tǒng).pdf
- 基于梯度方向直方圖的快速人體檢測算法.pdf
- 基于梯度方向直方圖的人體檢測算法的改進(jìn).pdf
- 基于局部方向梯度直方圖的快速目標(biāo)跟蹤.pdf
- 基于旋轉(zhuǎn)不變梯度方向直方圖的航拍圖像目標(biāo)檢測.pdf
- 圖像梯度方向直方圖描述子
評(píng)論
0/150
提交評(píng)論