版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、華南木棉中文網頁分類器,華南理工大學信息網絡工程研究中心 廣東省計算機網絡重點實驗室 曹鴻(隊長) 李嘉林 陳勝榮 朱旭圻,全國搜索引擎與網上信息學術研討會SEWM 2006---中文文本分類,目錄,系統(tǒng)模塊系統(tǒng)流程測試結果總結與展望,模塊結構,,,,,,,網頁去噪模塊,預處理 對天網格式的訓練集1,訓練集2及CWT20G文件進行解壓,得到三個網頁文檔集合(11類別訓練集,8類別訓練
2、集,待分類網頁集),一個網頁對應一個文檔,以docID命名。去除標簽 去掉無用的HTML語法標簽信息模板去噪 對45M訓練集進行,數(shù)據集 原來大小 去噪后大小11類別訓練集 200M 68M 8 類別訓練集 45M 18MCWT20G 20G
3、 11G,模板去噪,使用模板去噪以后,可以比較好的去除網頁中導航欄,廣告條,網站介紹,公司信息,無關鏈接等與網頁主題內容無關的噪音信息 。網頁模板選取選取一個結構相似的網頁模板。我們使用網頁URL作為衡量網頁模板相似性的因子。在訓練集找出一個網頁,它的URL與待分類網頁URL具有最長相同前綴,這個網頁就被視為網頁模板。模板去噪記待去噪網頁為t, 選取的模板為s. 然后利用JTidy建立兩個網
4、頁的DOM樹,從根結點開始,依次比較,如果有相同的結點,則認為該結點為噪音信息而刪除。,,中文分詞模塊,中文分詞使用開源中文分詞系統(tǒng)ICTCLAS,只保留名詞。進行中文分詞后繼續(xù)進行stemming處理。Rainbow的禁止詞是SMART system 的524個,我們進行擴充達到1500個。,,特征空間壓縮,采用了IG(Information Gain: IG)特征選擇算法對數(shù)據集進行特征降維,壓縮特征空間。200M數(shù)據集的特征
5、空間維數(shù)為:65565(共138365維)45M數(shù)據集的特征空間維數(shù)為:4800(共13024維),,分類模塊,,NB:樸素貝葉斯(Naïve Bayes)算法SVM:支持向量機(Support Vector Machine)算法SVMlight算法:對joachims的二元分類器進行了改進(結合OVA算法),使其可用于多元分類,并引入加權策略(OVA-WWT),提高分類精度。,OVA-WWT策略:One Vs A
6、ll With Weighted Threshold,傳統(tǒng)OVA,只是比較文檔對N個類別的相似度,簡單地取相似度最大的那個類別,由于這N個相似度是由N個不同的分類器產生,簡單地取最大值作為閾值策略并不合適我們提出OVA-WWT(One-Vs-All-With-Weighted Threshold)算法,在OVA算法的結果融合階段引入加權閾值策略,以提高類別公平度,從而提高分類精度。,人工操作,CWT20G中有1900個文件由于具有某
7、些無法識別的字符,使用本系統(tǒng)不能進行特征表示。我們會先統(tǒng)計20G網頁的分類分布情況,然后將這些網頁歸入到分布概率最大的那個類別中去。,目錄,系統(tǒng)模塊系統(tǒng)流程測試結果總結與展望,,中文分詞,特征壓縮,去除HTML標簽及模板去噪,,,按天網格式解壓,,,去除HTML標簽及模板去噪,按天網格式解壓,,,,參數(shù)調優(yōu),,特征建模,分類模型,,中文分詞,,,特征表示,訓練集網頁文檔,,訓練集,CWT20G,待分類網頁文檔,分類器
8、,,,,分類結果,出錯處理,,,,,,,測試結果,用200M網頁集的訓練集部分建模,測試集部分進行測試,本分類系統(tǒng)的宏平均正確率達到87.61%,宏平均召回率達到84.02% ,宏平均F1值達85.78%。用45M 網頁集的訓練集部分建模,測試集部分進行測試,本分類系統(tǒng)的宏平均正確率達到87.96%,宏平均召回率達到85.79%,宏平均F1值達86.86%。,20G類別分布(200M模型),目錄,系統(tǒng)結構系統(tǒng)模塊算法描述總結與展
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論