2005年--外文翻譯--基于方向梯度直方圖的行人檢測（譯文）

上傳人：奔*** IP屬地：河北更新時間：2024-03-01 格式：docx 頁數(shù)：12 大小：504.94KB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩11頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、　　中文1.1萬字，5820單詞，3萬英文字符　　出處：Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Confer

2、ence on. IEEE, 2005, 1: 886-893.　　外文譯文　　基于方向梯度直方圖的行人檢測　　作者: Navneet Dalal , Bill Triggs 　　摘要&l

3、t;/p>　　我們采用基于線性 SVM（支持向量機(jī)）的行人檢測作為測試案例來研究關(guān) 于健壯的實(shí)物視覺檢測特征集的問題。在通過實(shí)驗(yàn)測試了現(xiàn)存的所有基于邊緣與直方圖的特征描述子滯后，我們認(rèn)為在行人檢測的應(yīng)用上，由 HOG（方向梯度直方圖）提取的特征集明顯優(yōu)于現(xiàn)存的其它特征集。我們研究了各階段計算對檢測性能的影響，得出了這樣的結(jié)論：尺度精細(xì)的梯度，精確的方向分割，相對粗略的空間分級以及在重疊的描述塊中高質(zhì)量

4、的局部對比度歸一化都對良好的檢測結(jié)果起著重要的作用。新方法在檢測原麻省理工學(xué)院行人數(shù)據(jù)庫中的信息時幾乎給出了完美的區(qū)分，因此我們引入了一個更具挑戰(zhàn)的數(shù)據(jù)集，它包含著超過 1800 幅標(biāo)識的圖像，在這些圖像中行人的姿勢不同，背景各異。　　1.緒論　　鑒于在圖像中人的相貌各不相同、姿勢變化多端，要對其進(jìn)行檢測

5、是一個富有挑戰(zhàn)性的任務(wù)。首先我們需要的是一個健壯的特征集，在這個特征集中，即使是在在光照很差、背景雜亂的情況下，人形也能夠清楚地辨認(rèn)出來。我們對用于行人檢測的特征集問題的研究顯示，相對于現(xiàn)存的包括小波在內(nèi)的其他特征集，基于局部歸一化方向梯度直方圖（HOG）的描述子表現(xiàn)出了極佳的性能。這一描述子讓人聯(lián)想到邊緣方向直方圖，SIFT 描述子和 shape context，但它們的計算是基于一個由均勻間隔的胞元所形成的密集網(wǎng)格，而且為了

6、提高性能，使用了重疊的局部對比度歸一化。以“行人檢測”（對大多可見并呈直立姿勢的人的檢測）為一個測試案例，我們對各種實(shí)施的判斷對檢測器性能的影響做了細(xì)致的研究。為了使整個研究更為簡單和快速，我們采用了線性SVM為一個基礎(chǔ)的分類器。新的檢測器在檢測原麻省理工學(xué)院行人數(shù)據(jù)庫中的信息時表現(xiàn)基本上完美，所以我們創(chuàng)建了一個更具挑戰(zhàn)的數(shù)據(jù)集，它包含著超過 1800 幅圖像，在這些圖像中行人的姿勢不同，背景各異。正在進(jìn)行的工作表明，我們的特征集

7、在進(jìn)行其他的基于形狀的實(shí)物檢測時同樣表現(xiàn)良好。　　在論文的第二部分，我們簡要地討論了在行人檢測方面前人所做的工作，在論文的第三部分，我們對自己的方法做了概述，在論文的第四部分，我們介紹了自己的數(shù)據(jù)庫，在論文的第五和第六部分，我們對檢測過程的各個步驟給出了細(xì) 致的描述和實(shí)驗(yàn)評價。而在論文的第七部分，則是我們得到的主要結(jié)論。　　2.前

8、人工作　　關(guān)于實(shí)物檢測的文獻(xiàn)為數(shù)眾多，但在這里我們僅僅列舉幾篇與行人檢測相關(guān) 的論文（見參考文獻(xiàn) 18，17，22，16，20）。參考文獻(xiàn) 6 是一份調(diào)查資料。Papageorgio 等人在參考文獻(xiàn) 18 中描述了一種基于多項式核函數(shù) SVM 分類算法的行人檢測器，它使用修正 Haar 小波作為輸入的描述子，并有一個基于參考文獻(xiàn) 17 中的思想變化而來的部件（子窗口）。而

9、 Depoortere 等人在參考文獻(xiàn) 2 中給出一個更優(yōu) 化的版本。Gavrila 和 Philomen 在慘老文獻(xiàn) 8 中則采取了更直接的辦法，他們提取了邊緣圖像，并通過倒角距離，將它們與一系列已經(jīng)通過學(xué)習(xí)的例子進(jìn)行匹配。這些已經(jīng)在參考文獻(xiàn) 7 提及的一個實(shí)用化的實(shí)時行人檢測系統(tǒng)中得到了應(yīng)用。Viola 等人在參考文獻(xiàn) 22 中創(chuàng)建一個高效的移動行人檢測器，它使用 adaboost 算法來訓(xùn)練一個基于 Harr-like 小波和

10、時空差異的逐步復(fù)雜的區(qū)域拒絕規(guī)則鏈。Ronfard 等人在參考文獻(xiàn) 19 中通過引入基于 SVM 算法和一二階高斯濾波器的肢體分類器而創(chuàng)建了基于關(guān)節(jié)點(diǎn)的人體檢測器，這些都處于一個類似于F　　3.方法概述　　這一章給出了我們進(jìn)行特征提取流程的概述，參考圖 1 對其進(jìn)行了總結(jié)。而整個流程的細(xì)節(jié)部分我們將在第六章講

11、述。這種方法是基于在一個密集的網(wǎng)格中評估完全歸一化后的圖像梯度方向的局部直方圖。在過去的十年中類似的特征得到了越來越廣泛的應(yīng)用（見參考文獻(xiàn) 4,5,12,15）。其基本思想是，即使沒有確切的相關(guān)梯度或邊緣位置的信息，物體局部的外觀和形狀也往往深受局部強(qiáng)度梯度或者是邊緣方向的影響。在實(shí)際運(yùn)用中，這是通過將圖片窗口劃分成小的空間區(qū) 域（胞元）而實(shí)現(xiàn)的，對于每個胞元，都要對其中的像素的一維梯度方向直方圖或是邊緣方向進(jìn)行累積統(tǒng)計。合并

12、后的直方圖就構(gòu)成了被檢測物的特征。為了使其對光照、陰影等條件更加不敏感，在使用它們之前進(jìn)行對比度歸一化也是有必要的。這一歸一化是通過對更大的空間區(qū)域（塊）中某一特征的局部直方圖的“能量”進(jìn)行累積統(tǒng)計，進(jìn)而對塊上的每一個胞元進(jìn)行歸一化來實(shí)現(xiàn)的。我們把歸一化后的描述子塊作為方向梯度直方圖（HOG）描述子。對行人的檢測工作的流程包括在由 HOG 描述子組成的密集（事實(shí)上有重疊）的網(wǎng)格上平行滑動檢測窗以及在基于 SVM 的窗口分類器

13、下使用組合特征　　參考圖 1.對我們特征提取和實(shí)物檢測流程的概述。檢測窗口由一些平鋪的重疊的塊組成的網(wǎng)格構(gòu)成，在每個塊中提取方向梯度直方圖特征向量。合并后的向量送入一個線性 SVM 進(jìn)行檢測目標(biāo)\非檢測目標(biāo)分類。這個檢測窗口會掃描不同大小的圖片的所有位置，并且傳統(tǒng)的無最大值限制在輸出端得到應(yīng)用來檢測對象實(shí)例，但是這篇論文重點(diǎn)在于特征提取的流程。

14、以前對方向直方圖的使用也并不少見（見參考文獻(xiàn)13，4，5），然而，直到把它與局部空間直方圖計算和歸一化結(jié)合起來時，這一方法才達(dá)到了成熟。Lowe 在參考文獻(xiàn) 12 中將尺度不變特征變換（SIFT）用于寬基線圖像匹配，并給出了用于尺度不變關(guān)鍵點(diǎn)匹配的底端圖像層描述子?；?SIFT 的算法在這一應(yīng)用中表現(xiàn)突出（見參考文獻(xiàn) 12，14）。Shape Context 算法則對胞元和塊得形狀進(jìn)行了研究（見參考文獻(xiàn)1），盡管它最初只進(jìn)行了邊

15、緣像素的計數(shù)，而沒有運(yùn)用方向直方圖計算這一能夠大大提高所提取特征的有效性的方法。這些基于并不常見的算法的特征的成功稍稍掩蓋了HOG 特征在用作密集圖片描述子時所表現(xiàn)出的強(qiáng)力和簡單的特性。我們試圖通過自己的研究來糾正這一點(diǎn)。值得一提的是，我們非正式的實(shí)驗(yàn)表明，在行人檢測這一方面，即使是當(dāng)今最好的基于關(guān)鍵點(diǎn)的方法，也要比我們密集網(wǎng)格的方法在假陽性率上高上 1 到 2 個數(shù)量級，這主要是因?yàn)樵谖覀兯幕陉P(guān)鍵點(diǎn)的描述子中，沒有一個能夠?qū)?/p>

16、人體結(jié)構(gòu)進(jìn)行可靠的檢測。　　HOG/ SIFT 特征有幾處優(yōu)點(diǎn)。它不僅捕捉到了極具局部形狀代表性的邊緣或是梯度結(jié)構(gòu)，而且還捕捉到了一個局部特征，這一特征對局部的幾何和光學(xué)變換的不敏感程度容易控制：如果它遠(yuǎn)比局部的空間或是方向區(qū)間小，轉(zhuǎn)換或是旋轉(zhuǎn) 對它來說就沒什么區(qū)別。對于行人檢測，粗略空間采樣，精確方向采樣和完全的光學(xué)條件歸一化才是最理想的策略，這可能是因?yàn)椋灰獙ο蟊３执笾轮绷⒌姆?向，

17、可以容忍人的外觀由四肢和軀干各部分的活動而帶來的改變。　　4.數(shù)據(jù)庫和方法　　數(shù)據(jù)庫：我們在兩個不同的數(shù)據(jù)庫中測試了我們的檢測器的效果。第一個是完善的麻省理工學(xué)院的行人數(shù)據(jù)庫（見參考文獻(xiàn) 18），含 509 張訓(xùn)練用和 200 張測試用的以城市風(fēng)光為背景的行人圖片（加上它們的左右影射）。它只包含了前視和后視圖，

18、而且其中的姿勢的種類也相對有限，因此我們制作了一個全新而且更具挑戰(zhàn)性的數(shù)據(jù)庫“INRIA”，它包含 1805 張 64×128 尺寸的從不同的個人圖　　片集中裁剪而來的行人圖片。參考圖 2 顯示了其中的一些樣本。圖片中的人們通常是站立的姿勢，但他們有可能朝著任何方向，其背景（甚至包括人群）也是多種多樣。他們中的許多只是路人，所以他們的姿勢就不會有特殊的偏向。你可以從以下網(wǎng)址下載

19、到這個數(shù)據(jù)庫 http://lear.inrialpes.fr/data for research purposes。　　參考圖 2.以上是我們新的行人檢測數(shù)據(jù)庫中的一些樣本圖片。樣本中的行人大多直立，但也會有部分被遮擋，并且姿勢、外表、穿著、光照和背景變化多端。　　方法：我們選取了其中 1239 張圖片以及它們的左右影射（一共是 2478 張）<

20、;/p>　　作為正樣本。從 1218 張行人訓(xùn)練用圖片中隨機(jī)抽取的 12180 個圖片塊組成的固定集合構(gòu)成了最初的負(fù)樣本集。至于每個檢測器及其參數(shù)組合的確定，都會先訓(xùn) 練出一個基礎(chǔ)的檢測器，然后不斷對 1218 張訓(xùn)練用負(fù)養(yǎng)本圖片進(jìn)行排查，找出假陽性的例子（即“難例子”）。該方法通過這個擴(kuò)充集（最初的 12180 個樣本加上“難例子”）進(jìn)行再訓(xùn)練，就得到了最終的檢測器。如果有必要的話，可以對“難例子”集進(jìn)行

21、二次采樣，這樣最終訓(xùn)練集得描述子在進(jìn)入 SVM 訓(xùn)練之前就恰好能占據(jù) 1.7Gb 的 RAM 容量。這一再訓(xùn)練的過程極大地提高了每一個檢測器的性能（在對我們默認(rèn)檢測器進(jìn)行的在窗口假陽性測試（FPPW）中在 10-4 數(shù)量級上提高了 5%），但更多次數(shù)的再訓(xùn)練并沒有多大區(qū)別，所以我們沒有再進(jìn)行下去。　　為了能夠定量地分析檢測器的性能，我們繪制了權(quán)衡檢測誤差的對數(shù)尺度曲線，即漏檢率（1—檢出率或者

22、是假陰率/真陽率與假陰率的和）對比誤檢率。其值越低則檢測器效果越好。DET 圖表在各類報告和美國國家標(biāo)準(zhǔn)技術(shù)研究院（NIST）的評估中得到了廣泛的應(yīng)用。它們傳達(dá)了類似接收端工作特性（ROC’s）的信息，但讓小概率的事件更容易加以區(qū)分。我們通常將漏檢率在10-4 數(shù)量級的窗口假陽性測試中用作參考點(diǎn)以得出結(jié)論。這有些專斷，但我們并沒有更多像位于 ROC 以下的區(qū)域這樣的可以觀測的指標(biāo)。在一個多尺度的檢測器中，針對每幅 640×4

23、80 的測試圖像都給出80%為假陽性的原始錯誤率（由于沒有最大值的限制，整個檢測器的假陽率甚至都比它低）。我們的DET曲線的高度非常低，因此即使是在漏檢率上非常小的改進(jìn)，也與在固定漏檢率下的窗口假陽性測試中大的提高相當(dāng)。例如，在10-4 數(shù)量級的窗口假陽性測試中，對于我們默認(rèn)的檢測器，在漏檢率上每 1%絕對的（9%相對）的減少相當(dāng)于在在固定漏檢率下的窗口假陽性測試中減少 1.57 倍。<p&

24、gt;　　5.檢測結(jié)果概述　　在進(jìn)行具體的檢測流程和性能分析之前，我們將基于 HOG 特征的檢測器總體性能與現(xiàn)存的其它方法的性能作了比較。即將基于矩形特征（R-HOG）或是環(huán)形指數(shù)極坐標(biāo)特征（C-HOG）塊和線性或核心 SVM 算法的檢測器分別同基于 Haar 小波，PCA-SIFT 和 shape context 的作了比較。簡而言之，這些方法如下所&

25、lt;/p>　　示：廣義的 haar 小波：這是一個面向類 Harr 小波的擴(kuò)展特征集，它與參考文獻(xiàn)17 中所用到的類似，但性能上占優(yōu)。這些特征是通過 9×9 和 12×12 大小、以 45 度為間隔的面向一階和二階導(dǎo)數(shù)盒子濾波器以及對應(yīng)的二階導(dǎo)數(shù)直角坐標(biāo)濾波器修正而來的參數(shù)。　　PCA-SIFT：這些描述子是通過將梯度圖像投影到用 PCA 對圖

26、像進(jìn)行訓(xùn)練學(xué)習(xí)后得到的基礎(chǔ)上而產(chǎn)生的（見參考文獻(xiàn) 11）。Ke和Sukthankar 發(fā)現(xiàn)這些特征在基于關(guān)鍵點(diǎn)的匹配上表現(xiàn)比 SIFT 更加優(yōu)秀，但這是有爭議的（見參考文獻(xiàn) 14）。我們實(shí)驗(yàn)中使用擁有相同導(dǎo)數(shù)級、重疊等特點(diǎn)的 16×16 大小的塊做為 HOG 描述子。依據(jù)訓(xùn)練用的正樣本圖像，我們對 PCA 的基礎(chǔ)參數(shù)做了計算。　　Shape Contexts：最初的 Shape

27、Contexts（見參考文獻(xiàn) 1）是用二進(jìn)制的邊緣信息在指數(shù)極坐標(biāo)的區(qū)間內(nèi)投影，而并沒有考慮邊緣方向的因素。我們使用 C-HOG 描述子（如下所示）以及一個方向區(qū)間來模擬這種算法。16 種角度和 3 段散開的間隔加上內(nèi)徑的 2 個像素與外徑的 8 個像素的參數(shù)設(shè)置給出了最佳的結(jié) 果?；谔荻葟?qiáng)度信息和邊緣信息的投影都進(jìn)行了測試，其中邊緣閾值能夠自主設(shè)定以最大化檢測器的性能（這些值在某種意義上可變，并都是從 20 到 50 灰度級別

28、的區(qū)域中選取的）。　　實(shí)驗(yàn)結(jié)果：參考圖 3 顯示了各種檢測器在檢測麻省理工學(xué)院和 INRIA 數(shù)據(jù) 庫時所表現(xiàn)的性能?；贖OG的檢測器表現(xiàn)出來的性能要比基于小波、 PCA-SIFT 和 Shape Context 的要好得多，它在檢測麻省理工學(xué)院的數(shù)據(jù)庫時作出了幾乎完全正確的判別，而在檢測 INRIA 數(shù)據(jù)庫時則將誤檢率降低了一個數(shù) 量級。由于對輸出向量進(jìn)行了二階求導(dǎo)和對比度歸一化，我們

29、的類 Haar 小波特征也比麻省理工學(xué)院的小波特征表現(xiàn)得更為突出。參考圖 3也向我們展示了麻省理工學(xué)院最好的基于部分和整體的檢測器（這些信息是從參考文獻(xiàn)17中得來），然而，想進(jìn)行一個確切的比較是不太可能的，這是因?yàn)槲覀儾恢绤⒖嘉墨I(xiàn) 17 的數(shù)據(jù)庫中的信息是怎樣分成訓(xùn)練樣本和測試樣本的，并且我們也沒能得到副樣本。最終矩形（R-HOG）和環(huán)形(C-HOG)表現(xiàn)出的性能極為相似，其中 C-HOG 稍稍占優(yōu)。使用增廣R-HOG 特征結(jié)

30、合原始的塊檢測器（面向二階導(dǎo)數(shù)—“R2-HOG”）會將要提取的特征尺寸擴(kuò)大一倍，但最終能夠提高檢測性能（窗口假陽性測試中在 10-4 數(shù)量級上提高 2%）。將線性 SVM 算法替換成高　　參考圖 3.被選中測試的檢測器在(左側(cè))麻省理工學(xué)院和（右側(cè)）INRIA 數(shù)據(jù)庫表現(xiàn)出的性能。詳細(xì)內(nèi)容見論文中的表述。　　6.檢測流程與性能分析

31、　　現(xiàn)在我們給出 HOG檢測流程并系統(tǒng)地分析一下不同的判斷對檢測性能的影響。在這一章中我們所得到的結(jié)果都是由有著如下特性的默認(rèn)檢測器得出的，具體如下所示：RGB 色度空間且沒有伽馬校正；非平滑的[?1, 0, 1]梯度濾波器；線性梯度在 0?–180?區(qū)間內(nèi)向九個方向的投影；16×16 像素塊以及 8×8 的像素胞元；高斯 σ= 8 像素空間窗口；L2-Hys（Lowe 式修正二級標(biāo)準(zhǔn)）塊歸

32、一化；8 像素的塊滑動增量（因此每個胞元會被掃描 4 次）；64×128 檢測窗口；線性 SVM 分類器。　　參考圖 4 顯示了不同的 HOG 特征參數(shù)對整體檢測性能的影響。這些在下面的章節(jié)中將被仔細(xì)研究。主要的結(jié)論是，要想達(dá)到好的檢測效果，一個檢測器必須用到適當(dāng)?shù)膶?dǎo)數(shù)級（基本上無平滑處理），更多方向區(qū)間，以及大小合適、歸一化徹底并且重疊的描述塊。<

33、;p>　　參考圖 4.詳細(xì)內(nèi)容見論文中的表述。　　6.1 伽馬/歸一化　　我們選擇性地運(yùn)用伽馬均衡評估了輸入像素的幾個特征，包括灰度級，RGB 和 LAB 色度空間。或許是因?yàn)楹竺娴拿枋鲎託w一化達(dá)到了類似的效果，這些歸一化對檢測性能的影響不大。如果可以的話，我們也會使用色度信息。RGB 和 LAB 色度空間對檢測性能的影響類似，但是真正的阻礙在

34、于灰度級，它使得檢測性能在窗口假陽性測試中在 10-4 數(shù)量級上下降了 1.5%。對每個顏色通道進(jìn)行平方根的伽馬壓縮會使檢測性能有小幅的提高（窗口假陽性測試中在10-4數(shù)量級上提高1%），但使用對數(shù)壓縮，壓縮幅度就太大了，會使檢測性能惡化，在10-4數(shù)量級的窗口假陽性測試中下降2%。　　6.2 梯度計算　　檢測器

35、性能的好壞對梯度計算的方式十分敏感，然而最簡單的方式卻是最有效的。在梯度計算時，我們對使用高斯平滑然后再加以離散導(dǎo)數(shù)掩膜的效果進(jìn)行了測試。我們嘗試了若干平滑尺度，包括 σ=0（即不進(jìn)行高斯平滑）。我們還對多種掩膜進(jìn)行了實(shí)驗(yàn)，包括不同的一維單點(diǎn)導(dǎo)數(shù)掩膜（無中心點(diǎn)的[?1, 1]、有中心點(diǎn)的[?1, 0, 1]和三次校正的[1,?8, 0, 8,?1]）、3×3 的 Sobel 掩膜和 2×2 的對角掩膜（最密

36、集的二維導(dǎo)數(shù)掩膜）。使用面積更大的掩膜似乎總會降低檢測性能，而對高斯導(dǎo)數(shù)而言，進(jìn)行平滑會顯著地降低檢測性能，σ 的值從 0 上升到 2，窗口假陽性測試中檢測率會在 10-4 數(shù)量級上從 89%下降到 80%。當(dāng) σ=0 時，一維三次校正五次濾波掩膜在性能上會比掩膜為[?1, 0, 1]的窗口假陽性測試中在 10-4 數(shù)量級上差 1%，然而 2×2 的對角掩膜會差 1.5%。使用無中心點(diǎn)的導(dǎo)數(shù)掩膜[?1, 1] 同樣會降低

37、檢測性能（窗口假陽性測試中在 10-4 數(shù)量級上下降 1.5%），這大概是由方向信息估值受到基于不同中心得直角坐標(biāo)濾波器的影響所造成的。　　對于彩色圖像，我們會對每一個顏色通道計算各自的梯度，并且取其中幅值最大的為像素的梯度向量。　　6.3 方向區(qū)間　　接下來的是基本為非

38、線性的描述子。計算每個像素對基于以自身為中心的方向梯度元素的邊緣方向直方圖通道的加權(quán)投影，并且將這些投影累積到我們叫做胞元的局部空間區(qū)域中的方向區(qū)間。胞元可以是長方形的或是環(huán)形的（對數(shù)級區(qū) 域）。方向區(qū)間在 0?–180?（“無符號”梯度）或是 0?–360?（“有符號”梯度）之間均勻分布。為了減少混疊，我們對每個投影在方向和位置上都進(jìn)行了鄰近區(qū)間的雙線性插值。這些投影是像素梯度幅值的函數(shù)，無論是幅值本身，還是它的平方、它的平

39、方根或是一種修正的幅值都代表了在像素邊緣的軟存在/缺失。在實(shí)際應(yīng) 用中，使用幅值本身能夠達(dá)到最好的效果。而取它的平方根會使檢測性能稍微降低，使用二進(jìn)制邊緣信息投影則會大大降低檢測性能（窗口假陽性測試中在10-4 數(shù)量級上下降 5%）。　　精確的方向編碼對于好的檢測性能是必不可少的，而（見下文）空間分割就可以相當(dāng)粗糙了。如參考圖 4（b）所示，增加方向區(qū)間的數(shù)量直到 9 個都能顯</p&

40、gt;　　著地提高檢測性能，但是再增加的話效果就不明顯。這是對于位于 0?–180?的方向區(qū)間而言，也就是說梯度的“符號”忽略不計。即使方向區(qū)間的數(shù)量也加倍以保持原有的方向分辨率，有符號梯度（方向區(qū)間位于 0?–360?，如最原始的 SIFT 描述子）還是會降低檢測性能。對于人類而言，穿著和背景顏色的多種多樣可能會使得符號的標(biāo)識不能提供任何有用信息。然而，不要忘記有符號的信息確實(shí)在其它的實(shí)物檢測中大幅提高了

41、其檢測性能，如汽車、摩托車檢測。　　6.4 歸一化和描述塊　　由于局部光照和前景背景對比的差異，梯度幅值分布在一個很寬的范圍之內(nèi)，因此有效的局部對比度歸一化對好的檢測性能就顯得尤為重要。我們評估了許多不同的歸一化方案。大多數(shù)方案都是將胞元分組到更大的區(qū)域塊中并將每個塊分別進(jìn)行對比歸一化。然后，在檢測窗口中的所有圖像塊返回的歸一化胞元的所有部分組成

42、的向量就是最終的描述子。事實(shí)上，我們通常會使各塊重疊，這樣就能使每個標(biāo)量的胞元返回值同時對最終的描述子中的幾個部分產(chǎn)生作用，其中不同的塊都進(jìn)行了歸一化。這似乎是多此一舉，但是良好的歸一化非常關(guān)鍵，并且包括重疊在內(nèi)的措施顯著地提高了檢測性能。參考圖 4（d）表明，由于我們加入了重疊，從無（步長 16）到 16 倍區(qū)域/4 倍線性覆蓋（步長 4），使得檢測性能在窗口假陽性測試中在 10-4 數(shù)量級上上升了 4%。

43、;　　我們評估了兩類幾何形狀的塊，正方形或長方形的塊被分割成正方形或長方形空間胞元的網(wǎng)格，而環(huán)形的塊則被分割成對數(shù)極的形態(tài)。我們將這兩種不同的塊分別叫做 R-HOG 和 C-HOG（代表方形和環(huán)形 HOG）。　　R-HOG: R-HOG 與 SIFT 描述子（見參考文獻(xiàn) 12）有很多相同點(diǎn)，但用法卻有很多差異。它們經(jīng)過在密集網(wǎng)格中以單一的大小且沒有定向?qū)R的計算，并作

44、為與檢測窗口相關(guān)的隱式編碼空間的一個更大的編碼向量的一部分，而 SIFT 描述子則是在一個稀疏的關(guān)鍵點(diǎn)集中計算，通過旋轉(zhuǎn)使其方向?qū)R，然后單獨(dú)使用。 SIFT描述子適合稀疏的寬基線匹配，而R-HOG.描述子則適合致密健壯的空間形態(tài)編碼。其它類似的描述子包括 Freeman 和 Roth 在參考文獻(xiàn) 4 中提到的邊緣方向直方圖。我們通常使用方形的 R-HOG.描述子，即由 η×η 像素胞元組成的 ?×? 網(wǎng)格，

45、而每個網(wǎng)格中有 β 個方向區(qū)間，在這里 ?,η,β 都是描述子的參數(shù)。　　參考圖 5 繪制了窗口假陽性測試中在 10-4 數(shù)量級上胞元大小以及胞元構(gòu)成的塊的大小與漏檢率的關(guān)系。對于行人檢測而言，6×6 像素組成的胞元以及 3×3 這樣的胞元組成的塊表現(xiàn)出來的檢測性能最好，在窗口假陽性測試中在 10-4 數(shù)量級上漏檢率為 10.4%。我們的標(biāo)準(zhǔn)是 8×8

46、像素組成的胞元以及 2×2 這樣的胞元組成的塊，它表現(xiàn)出的性能與前者非常接近，排在第二位。事實(shí)上，不論塊大小如何，胞元寬度為 6 到 8 個像素時表現(xiàn)出的性能最佳——這與人類的肢體大概就在圖像中占 6—8 個像素是一個有趣的巧合。2×2 和 3×3 個胞元組成的塊效果最好。隨著塊變得更大，局部圖像信息會相應(yīng)地被弱化，而塊太　　小時（1×1胞元組成的

47、塊，也就是只在方向上進(jìn)行歸一化），重要的空間信息就得不到運(yùn)用。　　參考圖 5.不同胞元和塊大小在窗口假陽性測試中在 10-4 數(shù)量級上的漏檢率。滑塊（塊重疊）固定為塊大小的一半。3×3 個由 6×6 個像素組成的胞元構(gòu)成的塊的檢測性能最佳，漏檢率為 10.4%。　　正如參考文獻(xiàn) 12 中所說，在累積計算方向在胞元上的投影之前，通

48、過使用　　高斯空間窗口濾波減小在塊邊緣的像素的權(quán)重是有必要的。這樣做在使用 σ 值為塊大小一半的高斯濾波時能夠使檢測性能在窗口假陽性測試中在 10-4 數(shù)量級上提高 1%。　　我們也在整個描述子之內(nèi)嘗試了多種大小的塊和胞元組合。這能稍稍提高檢測性能（在窗口假陽性測試中在 10-4 數(shù)量級上大約提高 3%），其代價是會大大增加描述子的大小。<

49、/p>　　除了方形的 R-HOG 塊，我們也測試了垂直的（2×1 胞元）和水平的（1×2 胞元）的塊以及一個既有水平部分也有垂直部分的描述子。垂直的和垂直加水平的塊比只有水平的在性能上明顯要好得多，但不如 2×2 或 3×3 個胞元組成的塊（窗口假陽性測試中在 10-4 數(shù)量級上差 1%）。　　C-HOG：我們的環(huán)形塊狀描述子

50、（C-HOG）容易讓人聯(lián)想到 Shape Contexts，但其中最重要的區(qū)別在于，每個胞元空間都包含了一堆有梯度權(quán)重的方向胞元而不是單一的與方向無關(guān)的邊緣信息計數(shù)。對數(shù)極網(wǎng)絡(luò)原本是基于這樣一個思想，那就是它可以將鄰近結(jié)構(gòu)的精確編碼與邊遠(yuǎn)區(qū)域的粗略編碼相結(jié)合，而事實(shí)上從從視覺領(lǐng)域轉(zhuǎn)換到靈長類動物的大腦中的影像也是對數(shù)變換（見參考文獻(xiàn)21）。然而，小型且徑向區(qū)間很少的描述子表現(xiàn)出的性能最佳，因此在實(shí)際應(yīng)用中幾乎沒有不均勻參數(shù)或

51、是相關(guān)背景。我們也可以把C-HOG描述子簡單地比作一種先進(jìn)的中心環(huán)繞編碼方式。　　我們評估了兩種不同幾何形狀的C-HOG，其中之一是單一的環(huán)形中心胞元（與參考文獻(xiàn) 14 中提到的 GLOH 相似），另外一個是中心胞元被劃分成幾個類似 shape contexts 中的角度區(qū)域。由于環(huán)形中心胞元的 C-HOG 比中心分割的 C-HOG 在實(shí)際應(yīng)用中表現(xiàn)相同性能時所需的空間胞元更少，因此我們只對

52、前者進(jìn)行實(shí)驗(yàn)并得出結(jié)果。技術(shù)報告將提供進(jìn)一步的細(xì)節(jié)。這種C-HOG描述子總體有四個參數(shù)：角度和徑向區(qū)間的數(shù)量；中心區(qū)間像素的半徑；其它區(qū)間半徑的補(bǔ) 償值。良好的檢測性能需要至少兩個徑向區(qū)間（一個中心和一個周邊）和四個角度區(qū)間（四等分）。包含額外的徑向區(qū)間不會使檢測性能有太大的改變，而增加角度區(qū)間則會使檢測性能下降（區(qū)間數(shù)目從 4 增長到 12，在窗口假陽性測試中在 10-4 數(shù)量級上下降 1.3%）。4 像素是中心區(qū)間最佳的半徑大小

53、，但 3 個或是 5個得到的檢測效果區(qū)別不大。將補(bǔ)償參數(shù)從 2 提高到 3 基本上不會改變檢測性能。這些參數(shù)一經(jīng)確定，對其進(jìn)行高斯空間加權(quán)或是逆加權(quán)都不會改變檢測性能，但是把二者結(jié)合起來就會讓性能稍微降低。得到這些值需要精確的方向采樣。Shap　　塊歸一化方案：我們對以上每種幾何形狀的HOG都測試了四種不同的歸一優(yōu)化方案。令 v 為未歸一化的描述子向量，||v||k 為它的 k-范數(shù)（k=1,

54、2），　　而ε為一個值為小的常數(shù)。具體方案是：　　（a）L2-范數(shù)；　?。?lt;/b>　?。╞）L2-Hys，取 L2-范數(shù)之后再進(jìn)行裁剪（將 v 的最大值限制在 0.2 之內(nèi)）并且如參考文獻(xiàn) 12中所說進(jìn)行

55、反歸一化；　　（c）L1-范數(shù)，；　　還有（d）L1-sqrt，取L1-范數(shù)之后再取平方根，　　這相當(dāng)于將描述子向量用作率分布并且利用他們之間的 Bhattacharya 距離。參考圖 4（c）顯示，L2-Hys, L2- 范數(shù)和 L1-sqrt 表現(xiàn)出的性能一樣好，而單一的 L1-范數(shù)會使檢測性能在窗口假陽性

56、測試中在 10-4 數(shù)量級上下降 5%，而完全不進(jìn)行歸一化則會使其下降 27%。由于我們對包括空的部分的所有描述子進(jìn)行密集地估值，因此需要一個規(guī)則化因子ε，但檢測結(jié)果卻在一個大的區(qū)間內(nèi)對ε的值十分敏感。　　中心周邊歸一化：我們同樣也評估了另一種中心周邊式的胞元?dú)w一化方案，其中圖像被劃分為一系列平鋪的胞元組成的網(wǎng)格，而對每個胞元而言，它的總權(quán) 重和周圍區(qū)域（統(tǒng)計了方向信息并集中使用了高斯加權(quán)濾

57、波）被用來對該胞元進(jìn) 行歸一化。然而，正如參考圖4（c）（“窗口規(guī)范”）所示，這種方法與對應(yīng)的基于塊的方案相比降低了檢測性能（在窗口假陽性測試中在 10-4 數(shù)量級上下降 2%，濾波時胞元寬度σ=1）。其中的一個原因是塊之間不再重疊，這樣每個胞元在最終的描述子里僅僅編碼計算一次?；诓煌瑸V波尺度σ的胞元中加入幾種歸一化并不能明顯地改變檢測性能，因此，在這里似乎是幾處濾波區(qū)域的存在和相關(guān)胞元中空間區(qū)域的偏移顯得更為重要，而不是濾

58、波的尺度。　　為了解釋清楚這一點(diǎn)，我們考慮使用了包含重疊塊的 R-HOG 檢測器。根據(jù) 線性 SVM 訓(xùn)練所得的系數(shù)來賦予每個塊中的每個胞元在最終的判決中應(yīng)占的權(quán) 重。仔細(xì)分析參考圖 6（b，f）就能得出，通常那些包含人體輪廓（特別是頭，肩和腳）的才是最重要的胞元，歸一化時與輪廓周圍的胞元相關(guān)。換句話說—除了在我們的訓(xùn)練集中常見的復(fù)雜混亂的背景—檢測器主用關(guān)注的是輪廓線條與背景的對比，而不

59、是內(nèi)部邊緣信息或輪廓線條與前景的對比。服裝圖案與行人姿　　態(tài)的千變?nèi)f化可能會使內(nèi)部區(qū)域信息不能用作可靠的檢測依據(jù)，而前景到輪廓的轉(zhuǎn)換同樣可能會受到平滑著色和陰影效果的混淆。相似的是，參考圖 6（c，g）證明了人體內(nèi)部的直方圖（尤其是垂直的）通常算作反面的檢測依據(jù)，這可能是因?yàn)樗陂L的垂線一定與垂直的頭部與腿部胞元相關(guān)的基礎(chǔ)之上減少了誤報。　　參考圖

60、 6.我們的 HOG 檢測器主要的檢測線索是輪廓線條（特別是頭部，肩膀和腳）。最有用是以正好在輪廓外圍的圖片背景為中心的塊。參考圖 a：訓(xùn)練樣本的平均梯度圖像。參考圖 b：每個“像素”顯示在塊中的最大正 SVM 權(quán)重。參考圖 c：與上圖對應(yīng)的負(fù) SVM 權(quán)重。參考圖 d：一張測試圖像。參考圖 e：由這張圖像計算而來的 R-HOG 描述子。參考圖（f，g）：該 R-HOG 分別在 SVM 中的正負(fù)權(quán)重。<

61、;p>　　6.5 檢測窗口與背景　　我們 64×128 的檢測窗口包含了在人四周邊緣的約16 個像素。參考圖（e）　　表明這一邊界提供了大量有助于檢測的信息。將這個邊界從16 個像素降至 8 個像素（即 48×112 的檢測窗口）會使檢測性能在窗口假陽性測試中在 10-4 數(shù)量級上下降下降 4%。保持 64×128 的

62、檢測窗口大小不變，增大窗口中人的大?。ㄍ?時減少邊界像素個數(shù)）會導(dǎo)致類似的檢測性能下降，即便人的分辨率確實(shí)是上升了。　　分類器　　默認(rèn)情況下，我們使用一個軟（C=0.01）線性 SVM 和參考文獻(xiàn) 10 中的 SVMLight（略作修改以減少在處理高密度描述子向量問題時內(nèi)存的占用率）來訓(xùn)練。使用高斯核心 SVM

63、能夠使檢測性能在窗口假陽性測試中在 10-4 數(shù)量級上提高3%，其代價是檢測時間會大大增長。　　分析　　總的來說，在這項工作中有幾個值得注意的發(fā)現(xiàn)。HOG 的檢測性能大大強(qiáng) 于小波，并且在計算梯度之前任何相當(dāng)程度的平滑都會損害 HOG 的檢測效果，這些事實(shí)都強(qiáng)調(diào)了大部分的圖像信息都來源于合適尺度的陡峭邊緣，而將其

64、模糊化以希望達(dá)到減少對空間位置的敏感性的做法是不可取的。相反，應(yīng)該在最適合的尺度下在現(xiàn)有的層次計算梯度，修正或是利用方向投影的方法，而之后才能進(jìn) 行空間模糊。鑒于此，相對粗糙的空間量化就足夠了（胞元中 6 到 8 個像素的寬/一段肢體的寬度）。另一方面，至少是對于行人檢測而言，它對于方向信息的采　　樣更為精確，而小波和 shape contexts 在這方面就差遠(yuǎn)了。其次，徹底的局部對比度歸

65、一化對于好的檢測結(jié)果是必要的，而傳統(tǒng)的中心周邊式的方案則不是最好的選擇。要達(dá)到更好的效果，需要?dú)w一化與不同局域特征相關(guān)所有的元素（邊緣信息，胞元）數(shù)次，并且將這些結(jié)果當(dāng)作獨(dú)立的標(biāo)識。在我們標(biāo)準(zhǔn)的檢測器中，每個 HOG 胞元在不同的歸一化中一共用到四次，而將這一“重復(fù)”的信息加入進(jìn)來能夠使檢測率在窗口假陽性測試中在 10-4 數(shù)量級上從 84%提高到 89%。　　7.結(jié)論&l

66、t;/b>　　我們已經(jīng)表明，在密集重疊的網(wǎng)格中，使用與參考文獻(xiàn) 12 中提到的 SIFT 描述子類似的局部歸一化方向梯度直方圖，在行人檢測方面效果甚佳，比參考文獻(xiàn) 17 中提到的最好的基于 Haar 小波特征的檢測器在假陽率上減少了超過一個數(shù)量級。我們研究了各種描述子參數(shù)對檢測性能的影響，總結(jié)得出，合適大小的梯度，精確的方向區(qū)間劃分，相對粗糙的空間區(qū)域劃分和在重疊的描述子塊中高質(zhì) 量的局

67、部對比度歸一化對于好的檢測性能來說都很重要。我們也創(chuàng)建了一個新的且更具挑戰(zhàn)性的行人數(shù)據(jù)庫，并將其公之于眾。　　未來的工作：雖然我們目前的線性 SVM 檢測器相當(dāng)高效—檢測一張 320×240 的圖片（4000 檢測窗口）用時不到一秒—但是仍有繼續(xù)優(yōu)化的空間，并能夠在未來加快檢測的速度，在開發(fā)從粗到精或是基于 HOG 描述子的拒絕鏈?zhǔn)綑z測器時派上用場。我們也研究了基于 HOG 描述子的

68、檢測器，它將塊匹配或是光學(xué)流動區(qū)域有機(jī)地結(jié)合起來。最后，盡管現(xiàn)在的固定模板式檢測器在總體可見的行人檢測方面難以被超越，鑒于人類有高度的關(guān)節(jié)性，我們還是相信加入一個局部空間有更大不變性的基于部分的模型將會使檢測性能在更廣泛的領(lǐng)域得到提高。　　致謝　　這項工作得到了研究項目 ACEMEDIA 和 PASCAL 的幫助

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2005年--外文翻譯--基于方向梯度直方圖的行人檢測（譯文）

文檔簡介

溫馨提示

最新文檔

評論

2005年--外文翻譯--基于方向梯度直方圖的行人檢測（譯文）

文檔簡介

溫馨提示

最新文檔

評論

免費(fèi)下載