2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、<p><b>  摘 要</b></p><p>  人臉識別因為在駕駛員疲勞駕駛、視頻會議、醫(yī)學(xué)、檔案管理、系統(tǒng)公安(罪犯識別等)等方面的巨大應(yīng)用前景越來越成為模式識別和人工智能領(lǐng)域的一個研究熱點,其中,由于眼睛與人臉部的其他部位相比,其灰度變化特征十分明顯,因此,人眼定位研究算法對于人臉識別系統(tǒng)有著非常重要的意義和影響。</p><p>  在常規(guī)的

2、光線下,人眼區(qū)域在人臉區(qū)域中有兩個顯著地特征,一個是較周圍的區(qū)域暗,另一個是灰度差值較大,因此,本文使用了一種通過灰度積分和微分投影的眼睛定位方法,其前提是在人臉區(qū)域中進行人眼定位,可用于疲勞駕駛檢測中的人眼快速定位。在從人臉區(qū)域中去除容易被分隔出的,又影響人眼定位的干擾信息的基礎(chǔ)上,利用水平和垂直灰度微積分投影的方法并結(jié)合人臉的結(jié)構(gòu)特征得到眼睛的位置坐標(biāo)。</p><p>  該算法利用Visual C++編寫

3、程序,運算時間較短,結(jié)合簡單有效的灰度投影分析,大大提高了定位的速度,并且定位較準(zhǔn)確。</p><p>  關(guān)鍵詞:水平和垂直灰度微積分投影;灰度投影; 人眼定位</p><p><b>  Abstract</b></p><p>  Face recognition for the pilot fatigue driving,video c

4、onference, medicine, human-computer interaction, file management, public security system (criminal identification and application prospect of the huge more and more become pattern recognition and the field of artificial

5、intelligence of a research focus, among them, because the eye to the other parts of the face compared with the gray features very obvious, therefore, eye location algorithm research for face recognition system has a very

6、 impor</p><p>  In conventional light, the human eye area in the face region are two significantly feature, a is the area surrounding the dark, the other is a gray level difference is bigger, therefore, this

7、 paper uses a through the gray integral and differential projection eyes positioning method, the premise is the face region in the eye location, can be used for the detection of the human eye fatigue driving fast positio

8、ning. From the face region in the removal of the easy to space goes out, and influence th</p><p>  Key word:shorizontal and vertical gray calculus projection; eye location; gray integral and differential pr

9、ojection</p><p><b>  目 錄</b></p><p><b>  緒 論1</b></p><p>  0.1 課題背景及意義1</p><p>  0.2 國內(nèi)外研究現(xiàn)狀及發(fā)展2</p><p>  0.2.1 國外研究現(xiàn)狀2</

10、p><p>  0.2.2 國內(nèi)研究現(xiàn)狀2</p><p>  0.3 開發(fā)平臺簡介3</p><p>  0.3.1 Microsoft Visual C++開發(fā)平臺3</p><p>  0.3.2 Windows 操作系統(tǒng)4</p><p>  0.4 性能要求5</p><p> 

11、 第一章 數(shù)字圖像基礎(chǔ)6</p><p>  1.1圖像處理常用方法6</p><p>  1.2 數(shù)字圖像處理及其特點6</p><p>  1.3數(shù)字圖像處理的目的和主要內(nèi)容7</p><p>  1.3.1 數(shù)字圖像處理的目的7</p><p>  1.3.2 數(shù)字圖像處理的主要內(nèi)容7</p&g

12、t;<p>  1.4數(shù)字圖像處理的應(yīng)用工具8</p><p>  1.5 數(shù)字圖像處理的應(yīng)用領(lǐng)域9</p><p>  1.6 數(shù)字圖像文件的基本類型10</p><p>  1.7圖像文件的一般結(jié)構(gòu)11</p><p>  1.8常用的空間模型12</p><p>  1.9 數(shù)字圖像處理常

13、用方法13</p><p>  1.9.1 空域處理法13</p><p>  1.9.2頻域處理法14</p><p>  第二章 人眼定位的常用算法研究15</p><p>  2.1 人眼定位的常用算法研究15</p><p>  2.2 基于紅眼效應(yīng)的算法15</p><p>

14、;  2.3 區(qū)域分割法15</p><p>  2.4 Hough變換法15</p><p>  2.5 基于知識的人眼定位法16</p><p>  2.6灰度投影法16</p><p>  2.7模版匹配法17</p><p>  2.8邊緣特征分析法17</p><p>  

15、第三章 基于灰度投影的人眼定位算法18</p><p>  3.1 基于灰度投影的人眼定位算法18</p><p>  3.2 讀取BMP圖像文件18</p><p>  3.3 RGB圖像灰度化19</p><p>  3.4 灰度圖像的投影21</p><p>  3.4.1 灰度積分投影21</

16、p><p>  3.4.2 灰度微分投影23</p><p>  第四章 功能分析及實現(xiàn)26</p><p>  4.1 功能簡介26</p><p>  4.2功能介紹及分析26</p><p>  4.2.1 人眼區(qū)域范圍定位26</p><p>  4.2.2 人眼水平位置定位2

17、7</p><p>  4.2.3 人眼水平區(qū)域定位29</p><p>  4.2.4 人眼垂直位置定位29</p><p>  4.3結(jié)果展示30</p><p>  4.4 存在的缺陷及結(jié)果分析30</p><p><b>  總結(jié)與展望32</b></p><

18、p><b>  致 謝33</b></p><p><b>  參考文獻34</b></p><p><b>  緒 論</b></p><p>  0.1 課題背景及意義</p><p>  計算機自動人臉識別技術(shù)的研究開始于20世紀(jì)60年代,它作為一種重要的基于生

19、物特征識別的身份識別技術(shù),在圖像與視頻檢索,安全監(jiān)控,計算機視覺,智能人機接口,安全系統(tǒng)的身份認(rèn)證等領(lǐng)域中應(yīng)用越來越廣泛,近年來越來越引起圖像處理,模式識別等領(lǐng)域方的研究學(xué)者的廣泛關(guān)注。 </p><p>  人眼作為人臉最顯著地特征,比口,鼻更能提供可靠,重要的信息,因此,人眼的識別是計算機中人臉識別和智能監(jiān)控中不可缺少的重要部分。在過去的幾十年中,對人眼檢測和定位方法的研究取得了很大進展。其中,使用紅外光照明

20、的主動監(jiān)測方法在駕駛員疲勞監(jiān)測系統(tǒng)中得到了廣泛應(yīng)用。該方法充分利用人眼的基本生理特點,即視網(wǎng)膜對不同波長的紅外光能夠反射量的不同時所得的圖像中突出顯示瞳孔的位置,用于定位跟晴。該方法的優(yōu)點在于它的準(zhǔn)確性和魯棒性較好,但是它需要特殊的帶有紅外光源攝像機的硬件支持,對頭部的深度旋轉(zhuǎn)、人臉與攝像頭的距離和外部光照相當(dāng)敏感,在戶外環(huán)境下誤檢率會增加。對于在可見光和正常照明條件下得到的彩色圖像和灰度圖像中人眼的檢測和定位技術(shù)的研究也吸引了大量研究

21、者的注意。眼睛作為人面部上最顯著、最穩(wěn)定的特征, 可以被用于幫助定位人臉, 提供人的注視信息, 識別人臉動作(如表情變化)等</p><p>  疲勞駕駛是造成交通事故的主要原因之一。由于超長時間駕駛、夜間駕駛,或缺少睡眠等原因,駕駛員在駕駛時會出現(xiàn)疲勞或困倦狀態(tài)。對駕駛員疲勞程度檢測的研究,屬于智能交通領(lǐng)域,是智能輔助駕駛的一項關(guān)鍵技術(shù)。駕駛員在車輛行駛過程中是否疲勞駕駛可以從眼睛的狀態(tài)反映出來, 利用駕駛員眼

22、睛的狀態(tài)信息來判斷其疲勞狀況是一種可行的方法。在車輛上安裝駕駛員疲勞監(jiān)測系統(tǒng), 利用攝像頭對駕駛員的駕駛行為進行監(jiān)控, 獲取駕駛員臉部的一段連續(xù)圖像, 對每幅圖像中的眼睛狀態(tài)進行分析, 綜合每幅圖像的數(shù)據(jù)來獲得一個眨眼周期。由于正常的眨眼頻率與疲勞狀態(tài)的眨眼頻率有著明顯的區(qū)別, 從而可以判斷出該圖像序列獲取時駕駛員的精神狀態(tài), 在判斷駕駛員疲勞時由系統(tǒng)適時地給出警告信號以避免事故發(fā)生。因此, 準(zhǔn)確、快速獲得每幅圖像中眼睛的精確位置, 是

23、實現(xiàn)駕駛員疲勞狀態(tài)監(jiān)控的關(guān)鍵。作為眼睛定位的另外一個重要應(yīng)用是人臉識別和身份認(rèn)證, 人臉識別在司法驗證、安全監(jiān)控、智能卡、檔案管理、視頻會議、人機交互等方面有著廣泛的應(yīng)用,而身份認(rèn)證是根據(jù)個人獨有的生理特征和行為特征進行驗證。因為有些特征(如DNA、虹膜)具有高度準(zhǔn)確的優(yōu)點,是不可能被偽造</p><p>  0.2 國內(nèi)外研究現(xiàn)狀及發(fā)展</p><p>  0.2.1 國外研究現(xiàn)狀<

24、;/p><p>  人眼定位作為駕駛員疲勞監(jiān)測技術(shù)的重要組成,受到國外眾多研究學(xué)者的高度重視,提出來一系列算法并開發(fā)出一系列產(chǎn)品。</p><p>  1.Bala等人提出了一種基于遺傳算法和決策樹的眼睛定位方法,該方法用一種混合遺傳結(jié)構(gòu)使基本視覺規(guī)則不斷進化,最終得到可用于眼睛定位的決策樹形式的視覺規(guī)則。</p><p>  2.Wu和Zhou提出了一種基于灰度對比的

25、眼睛定位方法,該方法利用眼睛區(qū)域的灰度較大這一特點找出眼睛的位置。</p><p>  3.由Seeing Machines公司(澳大利亞國立大學(xué)與沃爾沃公司)研發(fā)的faceLAB通過監(jiān)測駕駛員眼睛的眨動頻率、凝視方向等特征參量,進行多特征信息融合,實現(xiàn)對駕駛員精神狀態(tài)的實時監(jiān)測。系統(tǒng)采用了與PERCLOS不同的眼睛睜閉和注視方向檢測方法,解決了暗光照、頭部運動和駕駛員佩戴眼鏡時的視線方法跟蹤問題。</p&

26、gt;<p>  4.Reinders等人提出了一種基于神經(jīng)網(wǎng)絡(luò)的眼睛定位方法,該方法將搜索窗口的像素作為神經(jīng)網(wǎng)絡(luò)的輸入,如果該窗口包含眼睛圖像,則神經(jīng)網(wǎng)絡(luò)的輸出較大。但是,上述方法只能給出人眼的大致位置,并不能獲得精確定位眼睛的中心。為了獲得效果更佳的人臉標(biāo)準(zhǔn)化圖像,有必要研究瞳孔精確定位的方法。</p><p>  5.文獻中的ASV2系統(tǒng)監(jiān)測駕駛員疲勞狀態(tài)的攝像機安裝在方向盤前方,通過紅外照明

27、的攝像機監(jiān)視眼睛的狀態(tài),在駕駛員出現(xiàn)疲勞狀態(tài)時,通過聲音和文字顯示等方法提示駕駛員。</p><p>  6.文獻中Paul Smith將監(jiān)測駕駛員疲勞狀態(tài)與檢測其注意力是否集中結(jié)合。用單個攝像機在白天光照條件下檢測駕駛員眨眼、頭部運動狀態(tài)、眼睛凝視方向等,作為檢測駕駛員疲勞狀態(tài)或注意力不集中的線索。</p><p>  0.2.2 國內(nèi)研究現(xiàn)狀</p><p> 

28、 國內(nèi)展開工作相較于國外對此領(lǐng)域的研究起步比較晚,目前還很缺乏深入系統(tǒng)的研究成果,但某些單因素特征方面的研究進步較快,目前取得了一些階段性的研究成果。</p><p>  1. Head Position Sensor 即一種頭戴式攝像機,能夠?qū)崟r跟蹤頭部是我位置,同時利用各個時間段頭部位置各器官的變化特征,包括眼睛的開合,表現(xiàn)出司機處于清醒還是瞌睡狀態(tài),該方法使眼睛區(qū)域容易從圖像中分割出來,但由于接觸式,侵入式

29、的缺點而使其應(yīng)用受到限制。</p><p>  2.文獻研究的單目視覺疲勞自動檢測系統(tǒng)檢測人臉,然后對頭部進行跟蹤,在可靠人臉的基礎(chǔ)上,定位并且跟蹤眼睛,提取眼角與眼瞼特征,具有確定的可靠性與準(zhǔn)確性,但系統(tǒng)對光照的適應(yīng)能力較差。</p><p>  3.有一種基于灰度積分投影的人眼快速定位方法,首先利用圖像的垂直灰度投影曲線確定人臉左右邊界,然后利用水平灰度投影曲線確定人眼位置,最后利用閾

30、值分割及邊緣檢測進行人眼開閉情況檢測,但對頭部傾斜度打,測光過強,頭部在圖像中所占區(qū)域小的情況,定位錯誤率較高。</p><p>  4. 文獻中將Kalman濾波和MeanShift算法結(jié)合用于眼睛的跟蹤,研究了基于膚色模型和級聯(lián)增強分類器法以及基于幾何特征和級聯(lián)增強分類器法的兩種人眼檢測方法,然后使用模版匹配判斷人眼的閉合狀態(tài)。但由于考慮的因素過多,勢必處理速度就會相應(yīng)地降低,同時各種因素之間互相干擾,影響定

31、位的準(zhǔn)確度</p><p>  本文使用的的是一種基于灰度投影的人眼快速定位方法,該方法在人臉粗定位的基礎(chǔ)上進行,灰度投影法是對人臉圖像水平和垂直方向的投影,根據(jù)波峰波谷的分布信息來定位眼睛。</p><p>  0.3 開發(fā)平臺簡介</p><p>  0.3.1 Microsoft Visual C++開發(fā)平臺</p><p>  Mic

32、rosoft Visual C++,(簡稱Visual C++、MSVC、VC++或VC)微軟公司的C++開發(fā)工具,具有集成開發(fā)環(huán)境,可提供編輯C語言,C++以及C++/CLI等編程語言。VC++整合了便利的除錯工具,特別是整合了微軟視窗程式設(shè)計(Windows API)、三維動畫DirectX API,Microsoft .NET框架。目前最新的版本是Microsoft Visual C++ 2010。</p><

33、p>  Microsoft Visual C++是Microsoft公司推出的開發(fā)Win32環(huán)境程序,面向?qū)ο蟮目梢暬删幊滔到y(tǒng)。它不但具有程序框架自動生成、靈活方便的類管理、代碼編寫和界面設(shè)計集成交互操作、可開發(fā)多種程序等優(yōu)點,而且通過簡單的設(shè)置就可使其生成的程序框架支持?jǐn)?shù)據(jù)庫接口、OLE2、WinSock網(wǎng)絡(luò)、3D控制界面。它以擁有“語法高亮”,IntelliSense(自動編譯功能)以及高級除錯功能而著稱。比如,它允許用戶

34、進行遠(yuǎn)程調(diào)試,單步執(zhí)行等。還有允許用戶在調(diào)試期間重新編譯被修改的代碼,而不必重新啟動正在調(diào)試的程序。其編譯及建置系統(tǒng)以預(yù)編譯頭文件、最小重建功能及累加連結(jié)著稱。這些特征明顯縮短程式編輯、編譯及連結(jié)的時間花費,在大型軟件計劃上尤其顯著。Visual C++最初叫做Microsoft C/C++。</p><p>  Visual C++ 被整合在 Visual Studio 之中,但仍可單獨安裝使用。目前有四種最新

35、版本:Visual Studio 2010 Professional 是供開發(fā)人員執(zhí)行基本開發(fā)任務(wù)的重要工具??珊喕诟鞣N平臺(包括 SharePoint 和云)上創(chuàng)建、調(diào)試和開發(fā)應(yīng)用程序的過程。Visual Studio 2010 Professional 自帶對測試驅(qū)動開發(fā)的集成支持以及調(diào)試工具,以幫助確保提供高質(zhì)量的解決方案。 Visual Studio 2010 Premium 是一個功能全面的工具集,可為個人或團隊簡化應(yīng)用程序

36、開發(fā)過程,支持交付可擴展的高質(zhì)量應(yīng)用程序。無論是編寫代碼、構(gòu)建數(shù)據(jù)庫、測試還是調(diào)試,您都可以使用能夠按照你的方式工作的強大工具來提高工作效率。</p><p>  Visual Studio 2010 Ultimate 是一個綜合性的應(yīng)用程序生命周期管理工具套件,可供團隊用于確保從設(shè)計到部署的整個過程都能取得較高質(zhì)量的結(jié)果。無論是創(chuàng)建新的解決方案,還是改進現(xiàn)有的應(yīng)用程序,Visual Studio 2010 Ul

37、timate 都能讓您針對不斷增加的平臺和技術(shù)(包括云和并行計算)將夢想變成現(xiàn)實。Visual Studio Test Professional 2010是質(zhì)量保障團隊的專用工具集,可簡化測試規(guī)劃和手動測試執(zhí)行過程。Test Professional 與開發(fā)人員的 Visual Studio 軟件配合運行,可在整個應(yīng)用程序開發(fā)生命周期內(nèi)實現(xiàn)開發(fā)人員和測試人員之間的高效協(xié)作。以前的版本有Visual C++ 2008 Express、Vi

38、sual C++ 2008 Standard 標(biāo)準(zhǔn)版、Visual C++ 2008 Professional 專業(yè)版、Visual C++ 2008 Team System 團隊系統(tǒng)版,其中 Microsoft Visual C++ 2008 Express 可從微軟網(wǎng)站免費下載使用,并且不限制商業(yè)使用。</p><p>  Visual Studio 是微軟公司推出的開發(fā)環(huán)境,Visual Studio 可以

39、用來創(chuàng)建 Windows 平臺下的 Windows 應(yīng)用程序和網(wǎng)絡(luò)應(yīng)用程序,也可以用來創(chuàng)建網(wǎng)絡(luò)服務(wù)、智能設(shè)備應(yīng)用程序和 Office 插件。Visual Studio 是目前最流行的 Windows 平臺應(yīng)用程序開發(fā)環(huán)境。目前已經(jīng)開發(fā)到 11 beta 版本,也就是 Visual Studio 2011 beta,但是最新的穩(wěn)定版本依然是Visual Studio 2010。Visual Studio 2008 包括各種增強功能

40、,例如可視化設(shè)計器(使用 .NET Framework 3.5 加速開發(fā))、對 Web 開發(fā)工具的大量改進,以及能夠加速開發(fā)和處理所有類型數(shù)據(jù)的語言增強功能。Visual Studio 2008 為開發(fā)人員提供了所有相關(guān)的工具和框架支持,幫助創(chuàng)建引人注目的、令人印象深刻并支持 AJAX 的 Web 應(yīng)用程序。開發(fā)人員能夠利用這些豐富的客戶端和服務(wù)器端框架輕松構(gòu)建以客戶為中心的 Web 應(yīng)用程序,這些應(yīng)用程序可以集成任何后端數(shù)據(jù)提供程序、

41、在任何當(dāng)前瀏覽器內(nèi)運行并完全訪問 </p><p>  0.3.2 Windows 操作系統(tǒng)</p><p>  Microsoft開發(fā)的Windows是目前世界上用戶最多、且兼容性最強的操作系統(tǒng)。其實已在1985年就推出了Windows操作系統(tǒng)。改進了微軟以往的命令、代碼系統(tǒng)Microsoft Dos。Microsoft Windows是彩色界面的操作系統(tǒng)。支持鍵鼠功能。默認(rèn)的平臺是由任

42、務(wù)欄和桌面圖標(biāo)組成的。任務(wù)欄是顯示正在運行的程序、“開始”菜單、時間、快速啟動欄、輸入法以及右下角托盤圖標(biāo)組成。而桌面圖標(biāo)是進入程序的途徑。默認(rèn)系統(tǒng)圖標(biāo)有“我的電腦”、“我的文檔”、“回收站”,另外,還會顯示出系統(tǒng)自帶的“IE瀏覽器”圖標(biāo)。運行Windows的程序主要操作由鼠標(biāo)和鍵盤控制。鼠標(biāo)左鍵單擊默認(rèn)是選定命令,鼠標(biāo)左鍵雙擊是運行命令。鼠標(biāo)右鍵單擊是彈出菜單。Windows系統(tǒng)是“有聲有色”的操作系統(tǒng)。除了有顏色以外,聲音也必不可少

43、。最重要的還是windows的硬件必須要驅(qū)動程序引導(dǎo)。USB、聲卡、顯卡、網(wǎng)卡、光驅(qū)、主板、CPU等等都需要驅(qū)動程序。安裝了驅(qū)動程序就可以正常使用Windows的硬件。有了主板的驅(qū)動,系統(tǒng)才可以正常使用、運行。有聲卡才會發(fā)聲、有顯卡才有圖像。這一切都是驅(qū)動程序的引導(dǎo)才可執(zhí)行。Win</p><p><b>  0.4 性能要求</b></p><p>  資料表明,

44、高速公路上發(fā)生的交通事故50%以上是由于長時間駕駛造成疲勞或由所見目標(biāo)單調(diào)而形成注意力不集中、甚至打瞌睡等原因造成的。而駕駛員在車輛行駛過程中是否疲勞駕駛可以從眼睛的狀態(tài)反映出來, 利用駕駛員眼睛的狀態(tài)信息來判斷其疲勞狀況是一種可行的方法。</p><p>  本文算法可以應(yīng)用在汽車駕駛主動安全中的基于駕駛員行為特征疲勞檢測的系統(tǒng)中,通過及時地定位、準(zhǔn)確地判斷眼部開閉狀態(tài)來明確駕駛員是否已經(jīng)處于疲勞狀態(tài),進而決定

45、是否發(fā)出報警提醒駕駛員。在車輛上安裝駕駛員疲勞監(jiān)測系統(tǒng), 利用攝像頭對駕駛員的駕駛行為進行監(jiān)控, 獲取駕駛員臉部的一段連續(xù)圖像, 對每幅圖像中的眼睛狀態(tài)進行分析, 綜合每幅圖像的數(shù)據(jù)來獲得一個眨眼周期。由于正常的眨眼頻率與疲勞狀態(tài)的眨眼頻率有著明顯的區(qū)別, 從而可以判斷出該圖像序列獲取時駕駛員的精神狀態(tài), 在判斷駕駛員疲勞時由系統(tǒng)適時地給出警告信號以避免事故發(fā)生。在這個過程中,準(zhǔn)確、穩(wěn)定、快速的定位非常重要,否則達不到主動安全的目的,因

46、此要求系統(tǒng)要兼顧以下幾點性能要求:</p><p>  魯棒性:要求系統(tǒng)對影響監(jiān)測效果的外界影響,如光照變化等有一定的抗干擾能力。</p><p>  獨立性:要求系統(tǒng)獨立完成檢測,工作過程不需要外部的介入與操作。</p><p>  實時性:要求系統(tǒng)能快速進行定位,并判定駕駛員是否處于疲勞狀態(tài)。</p><p>  準(zhǔn)確性:要求系統(tǒng)能以較高

47、的正確率定位人臉與人眼,這是駕駛員疲勞檢測系統(tǒng)的基本要求。</p><p>  第一章 數(shù)字圖像基礎(chǔ)</p><p>  1.1圖像處理常用方法</p><p>  本文的主要工作是對靜態(tài)圖像進行處理,在對圖片的處理過程中實現(xiàn)人眼的定位,因此本章旨在介紹數(shù)字圖像處理的基礎(chǔ)概念、應(yīng)用工具、應(yīng)用領(lǐng)域以及常用的人眼定位的方法,這些內(nèi)容結(jié)合在一起組成本文算法實現(xiàn)的知識背景和

48、基礎(chǔ)。</p><p>  1.2 數(shù)字圖像處理及其特點</p><p>  數(shù)字圖像處理最早出現(xiàn)于20世紀(jì)50年代,當(dāng)時的電子計算機已經(jīng)發(fā)展到一定水平,人們開始利用計算機來處理圖形和圖像信息。數(shù)字圖像處理作為一門學(xué)科大約形成于20世紀(jì)60年代初期。早期的圖像處理的目的是改善圖像的質(zhì)量,它以人為對象,以改善人的視覺效果為目的。</p><p>  在圖像處理中,輸入

49、的是質(zhì)量低的圖像,輸出的是改善質(zhì)量后的圖像,常用的圖像處理方法有圖像增強、復(fù)原、編碼、壓縮等。首次獲得實際成功應(yīng)用的是美國噴氣推進實驗室(JPL)。他們對航天探測器徘徊者7號在1964年發(fā)回的幾千張月球照片使用了圖像處理技術(shù),如幾何校正、灰度變換、去除噪聲等方法進行處理,并考慮了太陽位置和月球環(huán)境的影響,由計算機成功地繪制出月球表面地圖,獲得了巨大的成功。隨后又對探測飛船發(fā)回的近十萬張照片進行更為復(fù)雜的圖像處理,以致獲得了月球的地形圖、

50、彩色圖及全景鑲嵌圖,獲得了非凡的成果,為人類登月創(chuàng)舉奠定了堅實的基礎(chǔ),也推動了數(shù)字圖像處理這門學(xué)科的誕生。在以后的宇航空間技術(shù),如對火星、土星等星球的探測研究中,數(shù)字圖像處理技術(shù)都發(fā)揮了巨大的作用。數(shù)字圖像處理取得的另一個巨大成就是在醫(yī)學(xué)上獲得的成果。</p><p>  數(shù)字圖像處理是指用計算機對圖像進行處理。它廣泛用于幾乎所有與成像有關(guān)的領(lǐng)域。目前數(shù)字圖像處理技術(shù)發(fā)展迅速,其應(yīng)用領(lǐng)域也越來越廣,有些技術(shù)已相當(dāng)

51、成熟并且產(chǎn)生了較大的效益。當(dāng)前數(shù)字圖像處理的主要任務(wù)是研究新的處理方法,構(gòu)造新的處理系統(tǒng),開拓更廣泛的應(yīng)用領(lǐng)域。</p><p>  用計算機進行圖像處理的前提是圖像必須以數(shù)字格式存儲。數(shù)字化后圖像可以看成是存儲在計算機匯總的有序數(shù)據(jù),可以通過計算機對數(shù)字圖像進行處理。我們把利用計算機對圖像進行去除噪聲、增強、復(fù)原、分割、提取特征等的理論、方法和技術(shù)稱為數(shù)字圖像處理(Digitial Image Processi

52、ng)。</p><p>  在日常生活中,圖像處理已經(jīng)得到了廣泛應(yīng)用。例如:電腦人像藝術(shù),電視中的特殊效果,自動售貨機鈔票的識別,郵政編碼的自動識別和利用指紋、虹膜、面部等特征的身份識別等;而在醫(yī)學(xué)領(lǐng)域,很早以前就采用X射線、顯微鏡照片等來診斷疾病?,F(xiàn)在,計算機圖像處理已成為疾病診斷的重要手段,用一般攝影方法不能獲取的身體內(nèi)部的狀況,也能由特殊的圖像處理裝置獲取。</p><p>  數(shù)

53、字圖像處理的特點有:(1) 圖像數(shù)據(jù)量龐大。圖像中包含有豐富的信息,可以通過圖像處理技術(shù)獲取圖像中包含的有用的信息,但是,數(shù)字圖像的數(shù)據(jù)量巨大。 (2) 處理的多樣性。由于圖像處理是通過運行程序進行的,因此,設(shè)計不同的圖像處理程序,可以達到不同的處理目的。 (3) 處理效果易于控制。在圖像處理中,可以任意設(shè)定或變動各種參數(shù),能有效控制處理過程,達到預(yù)期的處理效果。 (4) 處理精度高,再現(xiàn)性好。利用計算機進行圖像處理,其實質(zhì)是對圖像數(shù)據(jù)

54、進行各種運算。由于計算機技術(shù)的飛速發(fā)展,計算精度和計算的正確性毋庸置疑;另外,對同一圖像用相同的方法處理多次,也可得到完全相同的效果,具有良好的再現(xiàn)性。一幅數(shù)字圖像是由圖像矩陣中的像素(Pixel)組成的,通常每個像素用哄、綠、藍(lán)三種顏色表示,如果每種顏色用8 bit表示灰度級,則一幅1024×1024不經(jīng)壓縮的真彩色圖像,數(shù)據(jù)量達3 MB。X射線照片一般為64~256Kb的數(shù)據(jù)量,一幅遙感圖像為3240×2340&

55、#215;4=30Mb。如此龐大的數(shù)據(jù)量給存儲、傳輸和處理都帶來巨大地困難。如果精度及分辨率再提高,所需時間將大幅增加。圖像處理技術(shù)綜合性強。數(shù)字圖</p><p>  1.3數(shù)字圖像處理的目的和主要內(nèi)容</p><p>  1.3.1 數(shù)字圖像處理的目的</p><p>  一般而言,對圖像進行加工和分析主要有如下三方面的目的。</p><p&

56、gt;  1.提高圖像的視感質(zhì)量,以達到賞析悅目的效果。如去除圖像中的噪聲,改變圖像的亮度、顏色,增強獲一直圖像中的某些成分,對圖像進行幾何變換等,從而改善圖像的質(zhì)量,以達到或真實的、或清晰的、或色彩豐富的、或意想不到的藝術(shù)效果。</p><p>  2.提取圖像中所包含的某些特征或特殊信息,以便于計算機對其進行分析,例如,常用作模式識別、計算機視覺的預(yù)處理等。這些特征包括很多方面,如頻域特性、灰度/顏色特性、邊

57、界/區(qū)域特性、紋理特性、形狀/拓?fù)涮匦院完P(guān)系結(jié)構(gòu)等。</p><p>  3.對圖像數(shù)據(jù)進行變換、編碼和壓縮,以便于圖像的存儲和傳輸。</p><p>  1.3.2 數(shù)字圖像處理的主要內(nèi)容</p><p>  不管圖像處理是出于什么目的,都需要用計算機圖像處理系統(tǒng)對圖像數(shù)據(jù)進行輸入、加工和輸出,因此數(shù)字圖像處理研究的內(nèi)容主要有以下幾個過程。</p>

58、<p>  1.圖像獲取、表示和表現(xiàn)。該過程主要是把模擬圖像信號轉(zhuǎn)化為計算機所能接受的數(shù)字形式,以及把數(shù)字圖像顯示和表現(xiàn)出來。這一過程主要包括攝取圖像、光電轉(zhuǎn)換及數(shù)字化等幾個步驟。</p><p>  2.圖像復(fù)原。當(dāng)造成圖像品質(zhì)下降的原因已知時,復(fù)原技術(shù)可以對圖像進行校正。圖像復(fù)原最關(guān)鍵的是對每種退化都需要有一個合理的模型。例如,掌握了聚焦不良成像系統(tǒng)的物理特性,便可以建立復(fù)原模型,而且對獲取圖像的特

59、定光學(xué)系統(tǒng)的直接測量也是可能的。退化模型和特定數(shù)據(jù)一起描述了圖像的退化,因此,復(fù)原技術(shù)是基于模型和數(shù)據(jù)的圖像恢復(fù),其目的是消除退化的影響,從而產(chǎn)生了一個等價于理想成像系統(tǒng)所獲得的圖像。</p><p>  3.圖像增強。圖像增強是對圖像質(zhì)量在一般意義上的改善。當(dāng)無法知道圖像退化有關(guān)的定量信息時,可以使用圖像增強技術(shù)較為主觀地改善圖像的質(zhì)量。所以,圖像增強技術(shù)是用于改善圖像視感質(zhì)量所采用的一種方法。因為增強技術(shù)并非

60、是針對某種退化所采取的方法,所以很難預(yù)測哪一種特定技術(shù)室最好的,只能通過實驗和分析誤差來選擇一種合適的方法。</p><p>  4.圖像分割。把圖像分成區(qū)域的過程就是圖像分割。圖像中通常包含多個對象,例如,一幅醫(yī)學(xué)圖像中顯示出正常的或有病變的各種的器官和組織。圖像處理為達到識別和理解的目的,幾乎都必須按照一定的規(guī)則將圖像分割成區(qū)域,每個區(qū)域代表被成像的一個物體。</p><p>  5.

61、圖像分析。圖像處理應(yīng)用的目標(biāo)幾乎均涉及到圖像分析,即對圖像中的不同對象進行分割、特征提取和表示,從而有利于計算機對圖像進行分類、識別和理解。</p><p>  6.圖像重建。圖像重建是指從數(shù)據(jù)到圖像的處理,即輸入的是某種數(shù)據(jù),而經(jīng)過處理后得到的結(jié)果是圖像。</p><p>  7.圖像壓縮編碼。圖像壓縮的目的就是壓縮數(shù)據(jù)量。圖像編碼主要是利用圖像信號的統(tǒng)計特性及人類視覺的心理學(xué)及心理學(xué)特

62、性。對圖像信號進行高效編碼。研究數(shù)據(jù)壓縮技術(shù),目的是在保證圖像質(zhì)量的前提下壓縮數(shù)據(jù),使數(shù)據(jù)便于存儲和傳輸,以解決數(shù)據(jù)量大的問題。</p><p>  1.4數(shù)字圖像處理的應(yīng)用工具</p><p>  數(shù)字圖像處理的工具可分為三大類: </p><p>  第一類包括各種正交變換和圖像濾波等方法,其共同點是將圖像變換到其它域(如頻域)中進行處理(如濾波)后,再變換到原

63、來的空間(域)中; </p><p>  第二類方法是直接在空間域中處理圖像,它包括各種統(tǒng)計方法、微分方法及其它數(shù)學(xué)方法: </p><p>  第三類是數(shù)學(xué)形態(tài)學(xué)運算,它不同于常用的頻域和空域的方法,是建立在積分幾何和隨機集合論的基礎(chǔ)上的運算。 </p><p>  由于被處理圖像的數(shù)據(jù)量非常大且許多運算在本質(zhì)上是并行的,所以圖像并行處理結(jié)構(gòu)和圖像并行處理算法也是

64、圖像處理中的主要研究方向。</p><p>  1.5 數(shù)字圖像處理的應(yīng)用領(lǐng)域</p><p>  1.生物醫(yī)學(xué)工程方面 數(shù)字圖像處理在生物醫(yī)學(xué)工程方面的應(yīng)用十分廣泛,而且很有成效。除了上面介紹的CT技術(shù)之外,還有一類是對醫(yī)用顯微圖像的處理分析,如紅細(xì)胞、白細(xì)胞分類,染色體分析,癌細(xì)胞識別等。此外,在X光肺部圖像增晰、超聲波圖像處理、心電圖分析、立體定向放射治療等醫(yī)學(xué)診斷方面都廣泛地應(yīng)用圖

65、像處理技術(shù)。 </p><p>  2.通信工程方面 當(dāng)前通信的主要發(fā)展方向是聲音、文字、圖像和數(shù)據(jù)結(jié)合的多媒體通信。具體地講是將電話、電視和計算機以三網(wǎng)合一的方式在數(shù)字通信網(wǎng)上傳輸。其中以圖像通信最為復(fù)雜和困難,因圖像的數(shù)據(jù)量十分巨大,如傳送彩色電視信號的速率達100Mbit/s以上。要將這樣高速率的數(shù)據(jù)實時傳送出去,必須采用編碼技術(shù)來壓縮信息的比特量。在一定意義上講,編碼壓縮是這些技術(shù)成敗的關(guān)鍵。

66、除了已應(yīng)用較廣泛的熵編碼、DPCM編碼、變換編碼外,目前國內(nèi)外正在大力開發(fā)研究新的編碼方法,如分行編碼、自適應(yīng)網(wǎng)絡(luò)編碼、小波變換圖像壓縮編碼等。 </p><p>  3.工業(yè)和工程方面 在工業(yè)和工程領(lǐng)域中圖像處理技術(shù)有著廣泛的應(yīng)用,如自動裝配線中檢測零件的質(zhì)量、并對零件進行分類,印刷電路板疵病檢查,彈性力學(xué)照片的應(yīng)力分析,流體力學(xué)圖片的阻力和升力分析,郵政信件的自動分揀,在一些有毒、放射性環(huán)境內(nèi)識別工件及物體的

67、形狀和排列狀態(tài),先進的設(shè)計和制造技術(shù)中采用工業(yè)視覺等等。其中值得一提的是研制具備視覺、聽覺和觸覺功能的智能機器人,將會給工農(nóng)業(yè)生產(chǎn)帶來新的激勵,目前已在工業(yè)生產(chǎn)中的噴漆、焊接、裝配中得到有效的利用。</p><p>  4.軍事公安方面 在軍事方面圖像處理和識別主要用于導(dǎo)彈的精確末制導(dǎo),各種偵察照片的判讀,具有圖像傳輸、存儲和顯示的軍事自動化指揮系統(tǒng),飛機、坦克和軍艦?zāi)M訓(xùn)練系統(tǒng)等;公安業(yè)務(wù)圖片的判讀分析,指紋識

68、別,人臉鑒別,不完整圖片的復(fù)原,以及交通監(jiān)控、事故分析等。目前已投入運行的高速公路不停車自動收費系統(tǒng)中的車輛和車牌的自動識別都是圖像處理技術(shù)成功應(yīng)用的例子。</p><p>  5.文化藝術(shù)方面 目前這類應(yīng)用有電視畫面的數(shù)字編輯,動畫的制作,電子圖像游戲,紡織工藝品設(shè)計,服裝設(shè)計與制作,發(fā)型設(shè)計,文物資料照片的復(fù)制和修復(fù),運動員動作分析和評分等等,現(xiàn)在已逐漸形成一門新的藝術(shù)--計算機美術(shù)。 </p>

69、<p>  6.機器人視覺 機器視覺作為智能機器人的重要感覺器官,主要進行三維景物理解和識別,是目前處于研究之中的開放課題。機器視覺主要用于軍事偵察、危險環(huán)境的自主機器人,郵政、醫(yī)院和家庭服務(wù)的智能機器人,裝配線工件識別、定位,太空機器人的自動操作等。 </p><p>  7.視頻和多媒體系統(tǒng) 目前,電視制作系統(tǒng)廣泛使用的圖像處理、變換、合成,多媒體系統(tǒng)中靜止圖像和動態(tài)圖像的采集、壓縮、處理、存貯

70、和傳輸?shù)取?</p><p>  1.6 數(shù)字圖像文件的基本類型</p><p>  數(shù)字圖像有多重存儲格式,每種格式一般由不同的開發(fā)商支持。隨著信息技術(shù)的發(fā)展和圖像應(yīng)用領(lǐng)域的不斷拓寬,還會出現(xiàn)新的圖像格式。因此,要進行圖像處理,必須了解圖像文件的格式,即圖像文件的數(shù)據(jù)構(gòu)成。每一種圖像文件均有一個文件頭,在文件頭之后才是圖像數(shù)據(jù)。</p><p>  圖像數(shù)字化后,

71、用二維矩陣表示和存儲,靜態(tài)圖像可分為矢量圖和位圖。</p><p>  矢量圖用數(shù)學(xué)公式描述的圖像,優(yōu)點是文件數(shù)據(jù)兩很??;圖像質(zhì)量與分辨率無關(guān),這意味著無論將圖像放大或縮小了多少次,圖像總是以顯示設(shè)備允許的 做大清晰度顯示,缺點是不易制作色調(diào)豐富或是色彩變化太多的圖像,而且繪制出來的圖像不是很逼真,同時也不易在不同的軟件間交換文件。</p><p>  位圖是通過許多像素點表示一幅圖像,每

72、個圖像像素具有顏色屬性和位置屬性。位圖可以從傳統(tǒng)的相片、幻燈片上制作出來或是使用數(shù)字相機得到。</p><p>  根據(jù)矢量圖和位圖的不同特點,本論文采用位圖作為處理的對象。</p><p>  據(jù)圖像像素的顏色分類,可將位圖分為如下四種類型:</p><p><b>  1.單色圖像</b></p><p>  每個像

73、素點有黑白兩種灰度值,因此一個像素僅占1bit,0表示黑,1表示白,或相反。常把單色圖像稱為1為圖像,或是二值圖像。在圖像處理過程中,常把圖像轉(zhuǎn)為二值圖像后進行各種分析。</p><p><b>  2.灰度圖像</b></p><p>  每個圖像像素點有2256級灰度值,因此一個像素占8bit,其值范圍從0到255,表示256種不同的灰度值。</p>

74、<p><b>  3.索引圖像</b></p><p>  在這種模式下,顏色表都是預(yù)先定義的,并且可供選用的一組顏色也很有限,索引顏色的圖像做多只能顯示256種顏色。因此一個像素占8bit,但這8bit的值不是顏色值,而是顏色表中的索引值,根據(jù)索引值在顏色表中找到最終的RGB顏色值。</p><p><b>  4.真彩色圖像</b&g

75、t;</p><p>  在真彩色圖像中,每一個像素由紅、藍(lán)、綠三個字節(jié)組成。每個字節(jié)為8bit,表示0到255之間的不同的亮度值,這三個字節(jié)組合可以產(chǎn)生1670萬種不同的顏色。</p><p>  1.7圖像文件的一般結(jié)構(gòu)</p><p>  常用的圖像文件存儲格式主要有GIF文件、JPG文件、BMP文件、PCX文件,以及TIFF文件等。</p>&

76、lt;p>  一般的圖像文件結(jié)構(gòu)都包含有文件頭和文件體兩部分。</p><p>  文件頭的主要內(nèi)容包括產(chǎn)生或編輯該圖像文件的軟件的信息以及圖像本身的參數(shù)。這些參數(shù)必須完整的描述圖像數(shù)據(jù)的所有特征,如圖像像素點的位置, 顏色信息等,因此是圖像文件中的關(guān)鍵數(shù)據(jù)。當(dāng)然,根據(jù)不同的文件,有的參數(shù)是可選的,如壓縮算法,有的文件無壓縮,有的文件可選擇多種方法壓縮。</p><p>  文件體主

77、要包括圖像數(shù)據(jù)以及顏色變換查詢表或調(diào)色板數(shù)據(jù),這部分是文件的主體,對文件容量的大小起決定作用。如果是真彩色圖像,則五顏色變換查找表或調(diào)色板數(shù)據(jù),對于256色的調(diào)色板,每種顏色值用24bit表示,則調(diào)色板的數(shù)據(jù)長度為256x3字節(jié)。目前還沒有非常統(tǒng)一的圖像文件格式,但大多數(shù)圖像處理軟件都與數(shù)種圖像文件格式相兼容,也即可讀取多種不同格式的圖像文件,這樣,不同的圖像格式可相互轉(zhuǎn)換。當(dāng)然,還有專門的圖像格式轉(zhuǎn)換軟件,用于各種圖像格式的轉(zhuǎn)換。位圖

78、文件(Bitmap-File,BMP)格式是Windows采用的圖像文件存儲格式在Windows環(huán)境運行下的所有圖像處理軟件都支持這種格式。Windows 3.0以前的 BMP位圖文件格式與顯示設(shè)備有關(guān),因此把它稱為設(shè)備相關(guān)位圖(device-dependent bitmap,DDB)文件格式。Windows 3.0以后的BMP位圖文件格式與顯示設(shè)備無關(guān),因此把這種BMP位圖文件格式稱為設(shè)備無關(guān)位圖(device-independent

79、 bitmap,DIB)格式,目的是為了讓W(xué)indows能夠在任何類型的顯示設(shè)備上顯示BMP位圖文件。BMP位圖</p><p>  位圖文件可看成是由4個部分構(gòu)成:位圖文件頭(bitmap-file header)、位圖信息頭(bitmap-information header)、顏色表(color table)和位圖數(shù)據(jù)。</p><p>  1.位圖文件頭。文件頭的信息主要包括與位圖

80、文件相關(guān)的信息,如文件類型、文件大小等,該部分信息共占14個字節(jié)。</p><p>  2.位圖信息頭。位圖信息頭的主要內(nèi)容為與圖像相關(guān)的信息,如位圖的高度與寬度,位圖的大小等,該部分信息共占40個字節(jié)。</p><p>  3.顏色表。該部分含有多個表項,每個表項占4個字節(jié)。對于24位真彩圖像是沒有這部分內(nèi)容。顏色表的表項個數(shù)由biBitCount確定,為2個表項,因此顏色表的總長度為2

81、×4個字節(jié)。</p><p>  4.位圖數(shù)據(jù)。該部分的大小取決于壓縮方法,它包含所有的位圖數(shù)據(jù),這些數(shù)據(jù)的值取決于biBitCount的值。</p><p>  biBitCount=1表示位圖最多有兩種顏色,即黑色和白色。圖像數(shù)據(jù)中的每一位(0或1)表示一個像素(黑色或白色)。</p><p>  biBitCount=4表示位圖最多有16種顏色。每個

82、像素用4位表示,并用這4位作為顏色表的表項來查找該像素的顏色。例如,如果位圖中的第一個字節(jié)的十六進制數(shù)為1F,它表示兩個像素,第一像素的顏色就在顏色表的第2表項中查找,第二個像素的顏色在顏色表的第16表項里查找。</p><p>  biBitCount=8表示位圖最多有256種顏色。每個像素用8位表示,并用這8位作為顏色表的表項來查找該像素的顏色。例如,如果位圖中的第一個字節(jié)的十六進制數(shù)為1F,這個像素的顏色就

83、在顏色表的第32表項中查找。</p><p>  biBitCount=24表示位圖最多有2=16777216種顏色。顏色表為空。每3個字節(jié)代表一個像素,每個字節(jié)分別表示R、G、B三分量的值。</p><p>  位圖數(shù)據(jù)的存放順序是從圖像中的最后一行到第一行的,每一行的順序為從左到右。值得一提的是,每一行像素所占的字節(jié)數(shù)必須是4的整倍數(shù),如果實際像素所占字節(jié)數(shù)不足4的倍數(shù),則需要補齊,下

84、一行像素值也是從4的倍數(shù)字節(jié)處后開始存放。</p><p>  1.8常用的空間模型</p><p>  一種顏色可用三個基本量來描述,所以顏色的描述是通過建立色彩(空間)模型來實現(xiàn)的,也就是建立一個三維坐標(biāo)系統(tǒng),其中每個空間點都代表一種顏色。不同的色彩(空間)模型對應(yīng)于不同的處理目的。</p><p>  CIE(國際照明委員會)在進行大量的色彩測試實驗的基礎(chǔ)上提

85、出了一系列的色彩模型用于對色彩進行描述。常見的色彩(空間)模型有RGB、Lab、YIQ、YUV等。</p><p>  RGB是一個通過與亮度有關(guān)的紅色(Red)、綠色(Green)、和藍(lán)色(Blue)的組合來表現(xiàn)色彩,RGB模型基于色彩的相加,當(dāng)R、G、B三種色彩的亮度都達到最大值時,得到的結(jié)果是白色,圖像經(jīng)掃描時大多用這種色彩模型,并且,RGB色彩模型同時是用來描述從顯示器的紅色、綠色和藍(lán)色磷光粉中發(fā)出的能量

86、數(shù)值的指定技術(shù)。RGB色彩模型是根據(jù)人眼椎體按接收光線的方式構(gòu)成一個模型的,眼睛的椎體上有紅、綠、藍(lán)的接收細(xì)胞,來響應(yīng)光線不同色彩的波長,將信息收集后,綜合起來,組成某一種色彩,則由人腦決定。RGB色彩非常適合于標(biāo)準(zhǔn)顯示器的圖形工作人員,因為RGB是一種可以增添的色彩。但是,彩色圖像 在RGB顏色空間中的RGB分量值不僅表示色彩又同時表示亮度,R、G、B三種基色之間存在著很大的相關(guān)性,這使得RGB顏色空間在彩色圖像分析和識別中不受歡迎。

87、</p><p>  Lab色彩模式可以說是最大范圍的色彩模式,是一種與設(shè)備無關(guān)的色彩空間,無論使用何種設(shè)備(如顯示器,打印機,計算機或掃描儀)創(chuàng)建或輸出圖像,這種模型都能生成一致的顏色,在Photoshop中進行RGB與CMYK模式的轉(zhuǎn)換都要利用Lab模式作為中間過渡模式來進行,只是大家平時看不到它在工作。Lab模式在任何時間、地點、設(shè)備都唯一性,因此在色彩管理中它是重要的表色體系。Lab的色彩理論是建立在人對

88、色彩感覺的基礎(chǔ)上。Lab色理論認(rèn)為,在一個物體中,紅色和綠色兩種原色不能同時并存,黃色和藍(lán)色兩種原色也不能同時并存。</p><p>  Lab色彩模型用三組數(shù)值表示色彩:</p><p>  Lightness:亮度數(shù)值,從0到100。</p><p>  a:紅色和綠色兩種原色之間的變化區(qū)域,數(shù)值從-120到+120。</p><p> 

89、 b:黃色到藍(lán)色兩種原色之間的變化區(qū)域,數(shù)值從-120到+120。</p><p>  1.9 數(shù)字圖像處理常用方法</p><p>  數(shù)字圖像處理的方法很多,根據(jù)他們處理數(shù)字圖像時所用系統(tǒng),主要可以歸納為兩大類:空間域處理法(空域法)即在圖像空間域中對圖像進行各種處理;頻域法(或稱為變換域法)即把圖像變換到頻域,然后再進行處理。頻域處理法包含了對圖像進行正交變換的正變換和反變換,對于數(shù)

90、據(jù)量較大的二維圖像,圖像處理相對技術(shù),不易滿足視覺系統(tǒng)實時處理的要求。</p><p>  此外,對圖像進行形態(tài)學(xué)變換也是圖像處理的常用方法。</p><p>  1.9.1 空域處理法</p><p>  空域處理法是指在空間域內(nèi)直接對數(shù)字圖像進行處理,處理時,既可以直接對圖像各像素點進行灰度上的變換處理,也可以對圖像進行小區(qū)域模版的空域濾波等處理,以充分考慮像素

91、領(lǐng)域像素點對其的影響。一般來說,空域處理算法的結(jié)構(gòu)較為簡單,處理速度相對較快??沼蛱幚硭惴ㄖ饕芯€性變換和閾值變換。</p><p><b>  線性變換</b></p><p>  線性變換是將圖像中所有的點的顏色分量值按照線性變換函數(shù)進行變換,線性變換函數(shù)是一個一維線性函數(shù)。</p><p>  Gray=

92、 (1-1)</p><p>  Gray為圖像中像素點的灰度值,k為變換系數(shù)。</p><p><b>  2.閾值變換</b></p><p>  閾值變換主要是將預(yù)付圖像轉(zhuǎn)換為黑白二值圖像。從復(fù)雜背景匯總分辨出目標(biāo)并將其形狀完整地提取出來,閾值的選擇非常重要。閾值選取如若不當(dāng),目標(biāo)與背景不易分離。</p>

93、<p>  Gray= (1-2)</p><p>  T為所選定的閾值,常見的閾值選擇方法有:全局閾值、自適應(yīng)閾值、最佳閾值等。</p><p>  全局閾值:整幅圖像使用同一個閾值作分割處理,適用于背景和前景有明顯對比的圖像。全局閾值法由于被檢測圖像存在因背景復(fù)雜、光照條件不同和干擾過多造成的圖像質(zhì)量差異

94、,若閾值取得過高或過低,都會產(chǎn)生對膚色和背景的較嚴(yán)重的誤判,影響到分割的效果,容易造成漏檢和錯檢。</p><p>  自適應(yīng)閾值:在許多情況下,物體和背景的對比度在圖像中不是各處一樣的,這時很難用統(tǒng)一的一個閾值將物體與背景分開。這時可以根據(jù)圖像的局部特征分別采用不同的閾值進行分割。實際處理時,需要根據(jù)具體問題將圖像分成若干子區(qū)域分別選擇閾值,或者動態(tài)地根據(jù)一定的領(lǐng)域范圍選擇每點處的閾值,進行圖像分割,但對于不斷

95、更新的動態(tài)目標(biāo),這種分割方法不易確定分割區(qū)域。</p><p>  最佳閾值:閾值的選擇需要根據(jù)具體問題來確定,一般通過實驗來確定。對于給定的圖像,可以通過分析直方圖的方法來確定最佳閾值。例如當(dāng)直方圖明顯呈現(xiàn)雙峰情況是,可以選擇兩個峰值的中點作為最佳閾值。有事通過對整個圖像進行灰度分布分析,確定進行圖像分割的最佳閾值。</p><p>  1.9.2頻域處理法</p><

96、;p>  頻域處理法主要是通過傅里葉變換、離散余弦變換、沃爾什變換和小波變換等變換算法,將圖像從空域信號變換到相應(yīng)地頻域信號,然后在頻域中對信號進行處理,處理完成后再將信號從頻域反變換到空域。由于頻域的作用空間比較特殊,不同于以往的空域處理方法,因此可以實現(xiàn)許多在空間域中無法完成或是很難實現(xiàn)的處理,廣泛用于濾波、編碼壓縮等方面。由于各種變換算法把圖像從空域向頻域進行變換以及反變換中均有相當(dāng)大的計算量,頻域處理算法的運算速度仍受變換

97、與反變換的處理速度的制約而很難提高。本論文處理算法中未涉及頻域處理算法。</p><p>  第二章 人眼定位的常用算法研究</p><p>  2.1 人眼定位的常用算法研究</p><p>  人體面部結(jié)構(gòu)組成的有眼睛、鼻子、嘴巴、下巴、顴骨,·還有部分毛發(fā)特征比如胡須,眉毛等。其中眼睛這一器官有著舉足輕重的作用。眼睛是人和動 物的視覺器官,主要部分是

98、眼球。人的眼睛近似球形,位于眼眶內(nèi)。正常成年人其前后徑平均為24mm,垂直徑平均23mm。最前端突出于眶外12—14mm,受眼瞼保護。眼睛是面部表現(xiàn)的重點,這不但因為眼睛是“心靈的窗戶’’,更重要的還在于,構(gòu)成眼睛的不同材質(zhì)和眼睛復(fù)雜的結(jié)構(gòu)變化。眼睛處在面部的中心位置,它是五宮中運動最頻繁的器官。兩只眼睛的結(jié)構(gòu)方向正好相對,這更增加了它的表現(xiàn)難度。因此,對眼睛的研究,就顯得尤其重要。</p><p>  眼睛由眼

99、球、上眼瞼、下眼瞼、眼眶和淚阜組成。眼球呈球體嵌在頭骨深凹的眼眶內(nèi),通過上下眼瞼構(gòu)成的眼裂,才能看到眼球的暴露部分,即部分眼白和虹膜、瞳孔。它的上部有上眼瞼投下的陰影,下部有球體自身結(jié)構(gòu)形成的暗部。虹膜是一個變化復(fù)雜的深色透明體,黑色的瞳孔上,有小而亮的高光。眼瞼與眼裂呈弧形,分上下兩部分包裹著眼球。上眼瞼比下眼瞼厚和長,位置也靠前,覆蓋著眼球的大部分。眼睛用作人臉檢測驗證方法的依據(jù)是:兩眼之間的間距不受光照或表情變化影響,并且兩眼中心

100、連線的方向能夠隨人臉方向的不同發(fā)生偏轉(zhuǎn),由此可以用此作為圖像旋轉(zhuǎn)的判斷依據(jù)。</p><p>  常用的有基于紅眼效應(yīng)的定位算法、區(qū)域分割法、Hough變換法、變形模版法、基于知識的人眼定位、邊緣特征分析法、灰度投影法和模版匹配法等。</p><p>  2.2 基于紅眼效應(yīng)的算法</p><p>  基于紅眼效應(yīng)的定位算法:同時使用940nm和850nm 2組紅外

101、光源,利用瞳孔對不同波長的紅外光發(fā)射程度的差異,對同一時刻拍攝的圖像做查分實現(xiàn)人眼定位,這種方法系統(tǒng)搭建復(fù)雜,并且在人眼睛閉合時完全失效。</p><p><b>  2.3 區(qū)域分割法</b></p><p>  區(qū)域分割法首先對人臉的二值圖像進行區(qū)域分割,然后設(shè)定一系列經(jīng)驗值和支持函數(shù)粗定位眼睛,該方法具有較好適應(yīng)性和較高的準(zhǔn)確性。</p><

102、p>  2.4 Hough變換法</p><p>  Hough變換法首先對人臉圖像進行邊緣提取,然后用Hough變換檢測眼球,構(gòu)造一個包括眼睛、眼臉的眼部模板,用一系列函數(shù)從能量角度找出眼臉。該方法需要做大量預(yù)處理,參數(shù)過多的眼部模板不使用于個體差異太大的人臉。</p><p>  霍夫變換法主要是針對眼球進行研究。在用霍夫變換檢測眼球前,先用Canny算法提取邊緣。設(shè)圖像空間為(

103、i,j),i和j分別表示行和列,三維變換空 間為(ie,je,R),其中ie、je分別代表眼球圓心的行和列,R為半徑。下半圓表達式為:</p><p>  i=+ (2-1)</p><p>  對于變換空間的每一個坐標(biāo)點(ie,je,R),在圖像空間都對應(yīng)一個半圓,在這個半圓上存在的邊緣點數(shù)就是變換空間上坐標(biāo)點(i

104、e,.je,R)對應(yīng)的值。實驗證明,霍夫變換確實具有抗干擾能力強的優(yōu)點。</p><p>  2.5 基于知識的人眼定位法</p><p>  人眼的位置幾何關(guān)系是固定的,基于知識的人眼定位是根據(jù)人眼分布的位置幾何關(guān)系來定位。因為考察的只是幾個區(qū)域中心點之間連線的長度和斜率,計算量相對少很多。在進行定位前完成了兩項準(zhǔn)備工作。</p><p>  1.各區(qū)域的行心坐標(biāo)

105、</p><p>  形心坐標(biāo)的計算公式如下:</p><p>  X= (2-2)</p><p>  Y= (2-3)</p><p

106、><b>  2.行心坐標(biāo)的排序</b></p><p>  中心坐標(biāo)的排序是對各中心點按高低位置進行排序。由于最多只有六個中心坐標(biāo),所以使用了簡單的冒泡排序法。因為區(qū)域結(jié)構(gòu)體定義復(fù)雜、成員較多,移動一個區(qū)域結(jié)構(gòu)隊列元素會占用較多資源。本文采用了間接排序來優(yōu)化這一問題。用數(shù)組A保存各形心點的縱坐標(biāo),用數(shù)組B紀(jì)錄索引號。經(jīng)排序后,如果A3成為第一個元素,則B1的值等于3。它表示第三個隊列

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論