基于改進(jìn)向量空間模型的郵件分類.pdf_第1頁
已閱讀1頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、電子郵件在當(dāng)今已經(jīng)成為人們聯(lián)系交流不可缺少的通信工具,但用戶每天都需要花費大量的工作時間對眾多郵件進(jìn)行整理。因此,研究郵件的自動歸類具有重要意義,目前郵件自動歸類有基于統(tǒng)計和基于規(guī)則兩類。本文主要研究的是基于統(tǒng)計的分類。 本文對電子郵件分類系統(tǒng)中所有必要的構(gòu)成階段進(jìn)行了研究,包括訓(xùn)練階段和分類階段,并給出了在兩個階段中經(jīng)常采用的技術(shù)。這些技術(shù)主要有郵件表示、特征選擇與提取、分類技術(shù)等。在這些技術(shù)中本文主要討論了郵件的表示方法,著

2、重分析了基于向量空間模型的表示形式。 基于統(tǒng)計的郵件分類一般采用向量空間模型來表示郵件,該模型將郵件表示成為向量形式,將對郵件內(nèi)容的處理簡化成了對向量空間中的向量進(jìn)行運算,從而使模式識別和其他領(lǐng)域的計算方法能夠在自然語言文本處理中運用,得以實現(xiàn)對郵件的可操作性和可計算性。但是該模型并未考慮到詞所在郵件的結(jié)構(gòu)特征,影響了分類的精度。 針對向量空間模型存在的缺點,本文的系統(tǒng)借助粘合性衡量方法提取n-gram的思想,對向量空間

3、模型進(jìn)行改進(jìn),提出了計算詞權(quán)重的一種新方法。這種方法以段落為郵件的最小分塊,將郵件內(nèi)容視為一個n-gram,段落視為n-gram中的單詞,并結(jié)合段落間的邏輯關(guān)系計算詞的權(quán)重。它不僅沒有打亂郵件內(nèi)容的順序性,而且也較好地體現(xiàn)了郵件的結(jié)構(gòu)特征,這使得系統(tǒng)在發(fā)揮向量空間模型優(yōu)勢的同時,也能夠提高分類的精確度。 本論文的實驗證明,采用改進(jìn)向量空間模型的郵件分類系統(tǒng)與采用傳統(tǒng)的向量空間模型算法相比,在分類的精度上有了明顯提高,從而有效地改

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論