版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、隨著信息技術(shù)的不斷發(fā)展和計算機(jī)不斷普及,個人數(shù)據(jù)信息急劇膨脹,Web也日益成為一個巨大的信息共享平臺,各種數(shù)據(jù)隨之呈現(xiàn)出一些新的特性:一是增長的快速性;二是數(shù)據(jù)共享性;三是數(shù)據(jù)結(jié)構(gòu)多樣性;四是數(shù)據(jù)分布的異構(gòu)性。在這樣的背景下,數(shù)據(jù)空間作為一種新的信息管理技術(shù)被提出以適應(yīng)異構(gòu)復(fù)雜數(shù)據(jù)的管理需求。
作為最常使用的信息存儲工具之一,文本內(nèi)部包含了大量半結(jié)構(gòu)或者無結(jié)構(gòu)的信息。如果在數(shù)據(jù)空間中,將文本內(nèi)部的信息作為一項數(shù)據(jù)源,利用文本內(nèi)
2、容之間存在的各種關(guān)聯(lián)為用戶的查詢和瀏覽提供導(dǎo)航,那么將使數(shù)據(jù)空間管理系統(tǒng)的功能得到很大的完善。然而,當(dāng)前的數(shù)據(jù)空間系統(tǒng)大多忽略了文本豐富的內(nèi)部信息。本文主要針對數(shù)據(jù)空間系統(tǒng)在文本內(nèi)容處理方面存在的不足,提出了兩種基于文本內(nèi)容的聚類方式,從而有效組織和管理文本。本文以數(shù)據(jù)空間中的文本作為數(shù)據(jù)源,首先從文本中抽取出大量內(nèi)容信息,然后將內(nèi)容信息劃分成模式信息和特征信息。利用這些內(nèi)容信息對文本實現(xiàn)兩種方式的聚類:基于文本模式信息和特征信息的聚類
3、。在基于模式信息的文本聚類中,提出了一種詞頻矩陣的模式詞選擇算法。該算法采用文檔頻次的思想選擇文本集中的模式詞,并用這些模式詞構(gòu)建向量空間表示文本,然后使用SOM聚類算法對文本進(jìn)行聚類。聚類過程中對SOM進(jìn)行了優(yōu)化,減少了訓(xùn)練次數(shù),提高了聚類效率和準(zhǔn)確度。在基于特征信息的文本聚類中提出了一種基于頻繁詞的樹聚類算法FTTC?;贔P-growth算法的思想,按照文本中頻繁詞的重要度構(gòu)建一棵聚類樹,然后根據(jù)樹中節(jié)點包含的文本數(shù)量是否滿足最小
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 文本文件存取技巧
- 使用文本文件進(jìn)行數(shù)據(jù)存取的技巧總結(jié)
- 將PDF文本文件導(dǎo)入SQL數(shù)據(jù)庫.pdf
- 文本文件內(nèi)容修復(fù)系統(tǒng)的技術(shù)研究及系統(tǒng)實現(xiàn).pdf
- 補(bǔ)充聽力(六)——補(bǔ)充聽力(十)文本文件
- 文本文件單詞的檢索與計數(shù)課程設(shè)計
- 借款合同文本文件(英文版)
- 王長喜6級聽力原文及答案解析文本文件
- 標(biāo)準(zhǔn)聽力(六)——標(biāo)準(zhǔn)聽力(十)試題及解析文本文件
- 補(bǔ)充聽力(一)—— 補(bǔ)充聽力(十)聽力原文及答案解析文本文件
- “萬能數(shù)據(jù)庫查詢分析器”使用sql語句直接高效地訪問文本文件
- 55064.基于多元智能理論的高中地理空間內(nèi)容教學(xué)策略研究
- 課程設(shè)計--實驗報告相鄰數(shù)對isbn識別碼文本文件單詞統(tǒng)計送貨
- 醫(yī)療空間內(nèi)裝飾材料的空間策略
- 旅游文本文化信息英譯策略研究.pdf
- 基于空間文本數(shù)據(jù)的k近鄰連接研究.pdf
- 基于文件過濾驅(qū)動的空間數(shù)據(jù)文件訪問控制研究.pdf
- 基于熵函數(shù)的DEM空間內(nèi)插方法研究.pdf
- 《計算機(jī)基礎(chǔ)》9月考試考核試題 word 2003文檔 轉(zhuǎn)換成純文本文件
- 基于關(guān)聯(lián)數(shù)據(jù)的文本型用戶生成內(nèi)容組織研究.pdf
評論
0/150
提交評論