基于文本和圖像內(nèi)容分析的中文敏感網(wǎng)頁識別關鍵技術研究.pdf_第1頁
已閱讀1頁,還剩77頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡已經(jīng)成為人們?nèi)粘+@取信息和知識的重要媒介?;ヂ?lián)網(wǎng)包含了龐大的信息量,具有開放性、動態(tài)性、匿名性、互動性等特點,它不僅給人們帶來了豐富的信息,也成為人們自由交互信息的平臺。與此同時,互聯(lián)網(wǎng)固有的分散性等特點也給網(wǎng)絡資源統(tǒng)一管理造成了困難。許多敏感的、不健康的、甚至是惡意的信息摻雜其中,對社會穩(wěn)定和人們身心健康造成了極大的危害,特別是影響青少年的健康成長。為此,我國乃至世界各地都對打擊網(wǎng)絡敏感信息十分重視,制定了一

2、些法律法規(guī),也開展了一些專項整治活動。如何能夠借助計算機分析技術手段,自動地識別和過濾網(wǎng)絡上的敏感信息,已經(jīng)成為凈化網(wǎng)絡、促進網(wǎng)絡健康發(fā)展的一項重要研究課題。
   網(wǎng)絡中網(wǎng)頁的形式及內(nèi)容多種多樣,并且隨著多媒體技術的不斷發(fā)展,網(wǎng)頁中的媒體類型也越來越多樣,現(xiàn)有的基于單一媒體的敏感網(wǎng)頁識別技術己難以滿足網(wǎng)絡實際發(fā)展的需要。由于網(wǎng)頁內(nèi)容主要包括文本和圖像兩種媒體格式,本文提出一種基于文本和圖像內(nèi)容分析的敏感網(wǎng)頁識別的方法,并對其中

3、的一些關鍵技術,如文本內(nèi)容分析、敏感圖像識別、信息融合等進行了初步的研究和探討。
   本文的主要內(nèi)容包括以下幾個部分:
   (1)分析了目前文本分類方法中的關鍵技術,提出了一種基于文本內(nèi)容分析的敏感網(wǎng)頁識別方法。
   本文提出的基于文本內(nèi)容分析的敏感網(wǎng)頁識別主要包括中文分詞、停用詞表的建立、特征選擇、文本表示、分類器等5個關鍵技術,本文分別對這5個部分進行了研究。為豐富中文分詞詞庫,提出了一種以詞頻統(tǒng)計為主

4、、以人工判決為輔并標注詞性的新詞識別算法。提出了一種停用詞表的建立算法,據(jù)此建立了含300個停用詞的停用詞表。比較了基于文檔頻率選擇、基于信息增益選擇、開方擬合檢驗統(tǒng)計量、基于幾率比選擇等4種特征選擇方法,比較不同維數(shù)特征庫下的識別效果。在對比分析的基礎上,選擇了開方擬合檢驗統(tǒng)計量方法作為特征選擇方法,并確定了400維的特征詞庫。根據(jù)開方擬合統(tǒng)計量特征選擇方法與樸素貝葉斯分類器的特點,加入待分類網(wǎng)頁文本中所含特征項數(shù)目與特征集維數(shù)的比值

5、以及特征項數(shù)目與文本所含詞匯數(shù)目的比值兩個影響因子,對樸素貝葉斯分類器進行改進。最終得到了較為理想的識別效果。
   (2)基于D-S證據(jù)理論,實現(xiàn)了網(wǎng)頁中文本和圖像的信息融合,根據(jù)信息融合結果確定網(wǎng)頁的敏感程度。
   由于敏感信息缺乏統(tǒng)一的標準定義,而且判斷敏感與否通常較為主觀,對敏感文本和圖像識別有一定的不確定度。因此,本文選用了支持含不確定度信息融合的D-S證據(jù)理論,融合文本和圖像信息對敏感網(wǎng)頁進行識別,據(jù)此得到

6、網(wǎng)頁的敏感度值,其中圖像信息的識別采用了一種基于多代價敏感決策樹的壓縮域敏感圖像識別方法。實驗結果表明,通過D-S證據(jù)理論將文本信息和圖像信息融合之后,對敏感網(wǎng)頁識別比單獨利用文本信息識別更加符合網(wǎng)頁敏感程度的實際狀況。
   (3)搭建了基于文本和圖像內(nèi)容分析的敏感網(wǎng)頁識別系統(tǒng)。
   為了驗證所提算法的有效性,本文提出了一種面向敏感網(wǎng)頁的網(wǎng)頁獲取方案,基于MFC(Microsoft Foundation Class)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論