粗糙集理論在文本分類算法中的應用_第1頁
已閱讀1頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、王珍珍:粗糙集理論在文本分類算法中的應用1粗糙集理論在文本分類算法中的應用王珍珍(棗莊學院,棗莊277160)摘要摘要:文本分類常采用的算法一般是基于向量比較的分類技術。文本中關鍵字較多,形成的特征向量維數相當高,因而會導致分類比較處理的運算量太大,而降低維數后又會不可避免地丟失有用信息。將粗糙集理論應用于分類處理過程中可有效地解決此問題。關鍵詞關鍵詞:文本分類;粗糙集;約簡;文本分類算法中圖分類號中圖分類號:TP301文獻標識碼文獻標

2、識碼:A文章編號文章編號:1673—1980(2009)04—0166—03文本分類(TextCategization)是中文信息處理的一個重要研究領域其目標是在分析文本內容的基礎上,給文本分配一個或多個比較合適的類別,從而提高文本檢索、存儲等應用的處理效率。目前已經有許多文本分類方法應用于該領域如支持向量機方法(SVM),K近鄰方法(KNN)、樸素貝葉斯方法(NaiveBayes)、決策樹方法(DecisionTree)等等。在常用的

3、文本分類算法處理過程中每個文本都用維數特別高的向量來描述其向量維數通常高達上萬維,即使處理能力最強的計算機也難以處理。很多系統在頻率統計的基礎上使用了閾值過濾降低向量的維數,卻不可避免地丟失一些有用的信息,特別是對于分類很重要的低頻詞,最終影響到分類的準確度。如果將粗糙集理論應用在分類處理過程中,即可有效地解決此問題。1粗糙集理論應用于文本分類的可行性分粗糙集理論應用于文本分類的可行性分析粗糙集理論(RoughSetsRS)是由波蘭華沙

4、理工大學教授Pawlak于1982年提出。用于研究不完整數據、不精確知識的表達、學習、歸納等方法。該理論以對觀察和測量所得的數據進行分類的能力為基礎,將知識理解為對數據的劃分,這種劃分在特定空間上由等價關系構成。與其他方法相比,粗糙集理論用于分類有以下優(yōu)勢:(1)粗糙集理論無需提供除問題所需處理的數據集合之外的任何先驗信息;(2)它包括了知識的一種形式模型,將知識定義為不可區(qū)分關系的一個族集,使得知識有了清晰的數據意義。并且可用數學方法

5、分析處理;(3)它能夠獲得分類所需的最小特征屬性集,可以在不影響分類精度的條件下降低特征向量的維數;(4)它可以得到最簡約的顯式表達的分類規(guī)則,而其他方法無法得到顯式規(guī)則,如樸素貝葉斯方法和K近鄰方法,有的得到的規(guī)則含有大量的冗余條件,如決策樹方法;(5)粗糙集理論和模糊邏輯、神經網絡、概率推理、信度網絡、鏈接計算、遺傳算法一起形成了軟計算方法的基礎。為問題的處理提供了成本較低的解決方案。將粗糙集理論應用于文本分類模型,主要利用粗糙集對

6、知識的等價劃分思想,保持了文本的概念信息。首先從已經分好類的文本集中提取區(qū)別文本類別的最小關鍵詞向量作為規(guī)則的前提條件。文件所屬的類別用作規(guī)則決策,構成分類決策表;再利用知識約簡理論提出文本分類規(guī)則。利用這些規(guī)則對新文本進行分類驗證;最后輸出符合分類要求的規(guī)則。這樣的分類規(guī)則容易理解,可使知識系統的處理過程簡單化。2應用粗糙集后的分類模型應用粗糙集后的分類模型應用了粗糙集理論后的文本分類模型主要包含訓練模塊、測試模塊兩部分?;竟ぷ髟?/p>

7、如下:首先利用訓練模塊生成一個分類器然后選取一部分分好類的文本對分類器進行分類效果測試,如果分類的準確性不能滿足要求,則重新回到訓練模塊,如此反復,直到分類準確性達到要求才能輸出最后的分類器,而此時這個經過訓練的分類器才能對新文本信息進行分類。引入粗糙集理論的文本分類器工作過程如圖1所示。(1)從語料庫中選出訓練文本和測試文本,每篇樣本由人工預先分類,并標上唯一的類別標志。(2)對所有訓練文本進行預處理,即首先進行分詞處理,將文檔變成無

8、序、分散的詞條集合,然后將集合中存在的一些頻率很高但無意義的虛王珍珍:粗糙集理論在文本分類算法中的應用3化方法研究[J]西安理工大學學報,2002(3):249254ApplicationofRoughSetTheyinTextClassifyingArithmeticWANGZhenzhen(ZaozhuangUniversity,Zaozhuang277160)AbstractAbstract:Presently,thepopula

9、rarithmeticoftextclassificationistheclassifyingtechniquesbasedonvectcomparisonHowever,astherearetoomanykeywdsinthetextfmingaratherhilghdimensionofeigenvectwhichconsequentlyeitherleadstoaverybigoperationamountinclassifyin

10、gdisposalsurelymissesusefulinfmationafterloweringthedimensionIfroughsettheycanbeappliedintheprocessofclassifyingdisposal,thisproblemcanbeeasilydealtwithKeyKeywdswds:textclassification;roughset;reduction;textclassifyingar

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論