

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、王珍珍:粗糙集理論在文本分類(lèi)算法中的應(yīng)用1粗糙集理論在文本分類(lèi)算法中的應(yīng)用王珍珍(棗莊學(xué)院,棗莊277160)摘要摘要:文本分類(lèi)常采用的算法一般是基于向量比較的分類(lèi)技術(shù)。文本中關(guān)鍵字較多,形成的特征向量維數(shù)相當(dāng)高,因而會(huì)導(dǎo)致分類(lèi)比較處理的運(yùn)算量太大,而降低維數(shù)后又會(huì)不可避免地丟失有用信息。將粗糙集理論應(yīng)用于分類(lèi)處理過(guò)程中可有效地解決此問(wèn)題。關(guān)鍵詞關(guān)鍵詞:文本分類(lèi);粗糙集;約簡(jiǎn);文本分類(lèi)算法中圖分類(lèi)號(hào)中圖分類(lèi)號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼文獻(xiàn)標(biāo)
2、識(shí)碼:A文章編號(hào)文章編號(hào):1673—1980(2009)04—0166—03文本分類(lèi)(TextCategization)是中文信息處理的一個(gè)重要研究領(lǐng)域其目標(biāo)是在分析文本內(nèi)容的基礎(chǔ)上,給文本分配一個(gè)或多個(gè)比較合適的類(lèi)別,從而提高文本檢索、存儲(chǔ)等應(yīng)用的處理效率。目前已經(jīng)有許多文本分類(lèi)方法應(yīng)用于該領(lǐng)域如支持向量機(jī)方法(SVM),K近鄰方法(KNN)、樸素貝葉斯方法(NaiveBayes)、決策樹(shù)方法(DecisionTree)等等。在常用的
3、文本分類(lèi)算法處理過(guò)程中每個(gè)文本都用維數(shù)特別高的向量來(lái)描述其向量維數(shù)通常高達(dá)上萬(wàn)維,即使處理能力最強(qiáng)的計(jì)算機(jī)也難以處理。很多系統(tǒng)在頻率統(tǒng)計(jì)的基礎(chǔ)上使用了閾值過(guò)濾降低向量的維數(shù),卻不可避免地丟失一些有用的信息,特別是對(duì)于分類(lèi)很重要的低頻詞,最終影響到分類(lèi)的準(zhǔn)確度。如果將粗糙集理論應(yīng)用在分類(lèi)處理過(guò)程中,即可有效地解決此問(wèn)題。1粗糙集理論應(yīng)用于文本分類(lèi)的可行性分粗糙集理論應(yīng)用于文本分類(lèi)的可行性分析粗糙集理論(RoughSetsRS)是由波蘭華沙
4、理工大學(xué)教授Pawlak于1982年提出。用于研究不完整數(shù)據(jù)、不精確知識(shí)的表達(dá)、學(xué)習(xí)、歸納等方法。該理論以對(duì)觀察和測(cè)量所得的數(shù)據(jù)進(jìn)行分類(lèi)的能力為基礎(chǔ),將知識(shí)理解為對(duì)數(shù)據(jù)的劃分,這種劃分在特定空間上由等價(jià)關(guān)系構(gòu)成。與其他方法相比,粗糙集理論用于分類(lèi)有以下優(yōu)勢(shì):(1)粗糙集理論無(wú)需提供除問(wèn)題所需處理的數(shù)據(jù)集合之外的任何先驗(yàn)信息;(2)它包括了知識(shí)的一種形式模型,將知識(shí)定義為不可區(qū)分關(guān)系的一個(gè)族集,使得知識(shí)有了清晰的數(shù)據(jù)意義。并且可用數(shù)學(xué)方法
5、分析處理;(3)它能夠獲得分類(lèi)所需的最小特征屬性集,可以在不影響分類(lèi)精度的條件下降低特征向量的維數(shù);(4)它可以得到最簡(jiǎn)約的顯式表達(dá)的分類(lèi)規(guī)則,而其他方法無(wú)法得到顯式規(guī)則,如樸素貝葉斯方法和K近鄰方法,有的得到的規(guī)則含有大量的冗余條件,如決策樹(shù)方法;(5)粗糙集理論和模糊邏輯、神經(jīng)網(wǎng)絡(luò)、概率推理、信度網(wǎng)絡(luò)、鏈接計(jì)算、遺傳算法一起形成了軟計(jì)算方法的基礎(chǔ)。為問(wèn)題的處理提供了成本較低的解決方案。將粗糙集理論應(yīng)用于文本分類(lèi)模型,主要利用粗糙集對(duì)
6、知識(shí)的等價(jià)劃分思想,保持了文本的概念信息。首先從已經(jīng)分好類(lèi)的文本集中提取區(qū)別文本類(lèi)別的最小關(guān)鍵詞向量作為規(guī)則的前提條件。文件所屬的類(lèi)別用作規(guī)則決策,構(gòu)成分類(lèi)決策表;再利用知識(shí)約簡(jiǎn)理論提出文本分類(lèi)規(guī)則。利用這些規(guī)則對(duì)新文本進(jìn)行分類(lèi)驗(yàn)證;最后輸出符合分類(lèi)要求的規(guī)則。這樣的分類(lèi)規(guī)則容易理解,可使知識(shí)系統(tǒng)的處理過(guò)程簡(jiǎn)單化。2應(yīng)用粗糙集后的分類(lèi)模型應(yīng)用粗糙集后的分類(lèi)模型應(yīng)用了粗糙集理論后的文本分類(lèi)模型主要包含訓(xùn)練模塊、測(cè)試模塊兩部分?;竟ぷ髟?/p>
7、如下:首先利用訓(xùn)練模塊生成一個(gè)分類(lèi)器然后選取一部分分好類(lèi)的文本對(duì)分類(lèi)器進(jìn)行分類(lèi)效果測(cè)試,如果分類(lèi)的準(zhǔn)確性不能滿足要求,則重新回到訓(xùn)練模塊,如此反復(fù),直到分類(lèi)準(zhǔn)確性達(dá)到要求才能輸出最后的分類(lèi)器,而此時(shí)這個(gè)經(jīng)過(guò)訓(xùn)練的分類(lèi)器才能對(duì)新文本信息進(jìn)行分類(lèi)。引入粗糙集理論的文本分類(lèi)器工作過(guò)程如圖1所示。(1)從語(yǔ)料庫(kù)中選出訓(xùn)練文本和測(cè)試文本,每篇樣本由人工預(yù)先分類(lèi),并標(biāo)上唯一的類(lèi)別標(biāo)志。(2)對(duì)所有訓(xùn)練文本進(jìn)行預(yù)處理,即首先進(jìn)行分詞處理,將文檔變成無(wú)
8、序、分散的詞條集合,然后將集合中存在的一些頻率很高但無(wú)意義的虛王珍珍:粗糙集理論在文本分類(lèi)算法中的應(yīng)用3化方法研究[J]西安理工大學(xué)學(xué)報(bào),2002(3):249254ApplicationofRoughSetTheyinTextClassifyingArithmeticWANGZhenzhen(ZaozhuangUniversity,Zaozhuang277160)AbstractAbstract:Presently,thepopula
9、rarithmeticoftextclassificationistheclassifyingtechniquesbasedonvectcomparisonHowever,astherearetoomanykeywdsinthetextfmingaratherhilghdimensionofeigenvectwhichconsequentlyeitherleadstoaverybigoperationamountinclassifyin
10、gdisposalsurelymissesusefulinfmationafterloweringthedimensionIfroughsettheycanbeappliedintheprocessofclassifyingdisposal,thisproblemcanbeeasilydealtwithKeyKeywdswds:textclassification;roughset;reduction;textclassifyingar
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 粗糙集理論在中文文本分類(lèi)中的應(yīng)用.pdf
- 基于粗糙集理論的文本分類(lèi)算法研究及應(yīng)用.pdf
- 基于粗糙集的文本分類(lèi)算法研究.pdf
- 粗糙集在文本分類(lèi)系統(tǒng)中的應(yīng)用研究.pdf
- 基于粗糙集理論的文本分類(lèi)研究.pdf
- 粗糙集理論在文本挖掘的分類(lèi)算法中的應(yīng)用研究.pdf
- 基于粗糙集理論的文本分類(lèi)方法研究.pdf
- 基于粗糙集的中文文本分類(lèi)算法研究及應(yīng)用.pdf
- 基于模糊—粗糙集的文本分類(lèi)模型.pdf
- 基于模糊粗糙集的Web文本分類(lèi)研究.pdf
- 基于粗糙集的文本分類(lèi)技術(shù)研究.pdf
- 基于變精度粗糙集的文本分類(lèi)研究.pdf
- 基于鄰域粗糙集的屬性約簡(jiǎn)和樣本約減算法研究及在文本分類(lèi)中的應(yīng)用.pdf
- 基于粗糙集的多標(biāo)記文本分類(lèi)方法研究.pdf
- 基于粗糙集的Web文本分類(lèi)技術(shù)研究.pdf
- 粗糙集理論在文本挖掘中的應(yīng)用研究.pdf
- 基于粗糙集的文本分類(lèi)器的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于粗糙集理論的文本自動(dòng)分類(lèi)研究.pdf
- 基于粗糙集與支持向量機(jī)的Web文本分類(lèi).pdf
- 基于粗糙集的SVM層次文本分類(lèi)技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論