代價敏感的個性化郵件過濾技術研究.pdf_第1頁
已閱讀1頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Internet飛速發(fā)展和普及,使得電子郵件成為信息交互的重要工具。但是,垃圾郵件的傳播卻嚴重干擾了用戶的日常生活和信息的正常通信,電子郵件成為各類廣告、政治反動宣傳、病毒傳播及惡意攻擊的工具,占用大量帶寬資源,并經常引起嚴重的郵件欺騙和安全問題。因此,研究郵件過濾技術具有舉足輕重的作用。
   在郵件過濾中,分類的任務是期望建立誤分類最小的分類器,在傳統(tǒng)上都是基于分類錯誤具有相同的代價假定上的。眾所周知,如果用戶查看大量垃圾郵

2、件會浪費用戶的時間,相反如果漏掉用戶特別重要的郵件則會造成用戶損失。顯然,相對于前者,后者所付出的損失代價要遠大于前者所付出的代價。對一批郵件而言,可能存在的情況是全部郵件中僅有極少數是用戶真正需要的,則在最糟糕的情況下,使用傳統(tǒng)分類方法產生的分類器只需要以大多數的郵件為標準作為分類即可獲得比較高精度的分類結果。但此時這個分類器也就失去了存在的價值。因此在處理分類不平衡數據時,單純以分類精度作為分類器的標準就顯得不恰當。一種合理的解決方

3、法是以代價敏感來取代精度敏感的分類。因此,本文研究中,根據郵件過濾特點和用戶興趣,結合對分類結果的后處理代價敏感學習方法、可適應推進算法以及閾值過濾郵件的思想,給錯誤分類的重要郵件賦予相應的權值,以引起下一輪分類中更加重視,這樣當學習完弱分類器后,按照閾值高低進行過濾郵件,誤分類代價就會減小。實驗結果表明:改進后的方法能根據用戶興趣對分類器進行設置,減少了誤分類代價。
   信任覆蓋郵件過濾模型提供了分布式的過濾能力、實現(xiàn)了結點

4、間的相互推薦。在結合用戶興趣的差異性,還有待改進,從而滿足用戶個性化的需求。本文分析了信任覆蓋模型的特點,提出了改進的信任覆蓋郵件過濾模型。本模型能反映垃圾郵件趨勢,能根據用戶興趣過濾郵件,并把用戶對郵件的評判情況反饋給郵件服務器中的可信管理模塊??蛻舳讼到y(tǒng)模擬表明,用戶能調整閾值過濾郵件,反饋后誤判率和漏判率有一定降低。
   最后,本文將第三章的算法應用于實際的郵件收發(fā)中,設計并實現(xiàn)了郵件過濾系統(tǒng),測試表明系統(tǒng)基本上能夠實現(xiàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論