按c-分層不定長CAT研究與實現(xiàn).pdf_第1頁
已閱讀1頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、如何對網(wǎng)上的文本信息進(jìn)行分類,使Internet這個巨大分布式信息空間的無序狀態(tài)有序化,已成為文本信息處理和計算機(jī)研究領(lǐng)域亟待解決的一個問題.一般來說,由于文本集中的特征項可能多達(dá)數(shù)萬個,那么把文本表示為向量形式時,特征空間的維數(shù)也就高達(dá)數(shù)萬維,如此高維的特征向量的處理具有極高的計算復(fù)雜度,用常用的分類算法進(jìn)行處理,高維帶來的噪音會淹沒真正的對分類有用的信息,尤其是會產(chǎn)生所謂的"維數(shù)災(zāi)難問題",所以人們?yōu)樘岣叻诸愃俣?降低噪音的影響,應(yīng)

2、用降維技術(shù)處理維數(shù)災(zāi)難.現(xiàn)有的文本自動分類中的降維大多采用特征選擇的方法,選擇一些主要特征,即通過評價函數(shù)進(jìn)行降維,但通過這種方法選擇的特征項中可能還包含一些彼此相關(guān)的因素,也就是說有些特征是冗余的.降維的另外一種方式是利用映射(或變換)的方法(也稱特征提取)把原始項集映射到較低維的空間中,通過降維映射,構(gòu)造總數(shù)量較少的新特征集,其中每個特征都是原有特征的函數(shù),并通過新特征進(jìn)行識別.經(jīng)典的算法有:主成分分析和Fisher線性判別分析.但

3、這些方法都是建立在數(shù)據(jù)總體服從正態(tài)分布這個假定基礎(chǔ)之上的,而文本特征數(shù)據(jù)并不滿足正態(tài)分布假定,需要用穩(wěn)健的或非參數(shù)的方法來解決這個問題.基于上述原因,我們提出了基于投影尋蹤的中文網(wǎng)頁分類算法.該文的主要思想是:把高維數(shù)據(jù)投影到低維子空間上,尋找出最能反映原高維數(shù)據(jù)的結(jié)構(gòu)和特征的投影方向,然后將文本投影到這一方向,使高維數(shù)據(jù)降低維數(shù),通過研究降維后低維數(shù)據(jù)的散布情況來揭示高維數(shù)據(jù)的結(jié)構(gòu)特征.該文的主要創(chuàng)新點如下:(1)對數(shù)據(jù)不做正態(tài)分布等

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論