版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著網(wǎng)絡(luò)信息的飛速增長(zhǎng)和搜索引擎等技術(shù)的日趨成熟,人類社會(huì)所面臨的主要問題已經(jīng)不再是信息匱乏,而是如何提高信息獲取和信息訪問的效率。文本聚類技術(shù)具有較強(qiáng)的靈活性和自動(dòng)處理能力,已經(jīng)成為對(duì)文本信息進(jìn)行有效地組織和導(dǎo)航的重要手段。盡管目前圍繞文本自動(dòng)聚類技術(shù)的研究已經(jīng)取得了一些進(jìn)展,當(dāng)前人們?nèi)匀幻媾R聚類質(zhì)量較低、對(duì)語義知識(shí)把握不足等問題。
為了解決上述問題,本文在對(duì)幾種比較經(jīng)典的文本聚類方法進(jìn)行對(duì)比分析的基礎(chǔ)上,考慮到自組織映射網(wǎng)
2、絡(luò)在拓?fù)浔P蚝涂乖肼暷芰Φ确矫娴膬?yōu)勢(shì),以自組織映射模型作為文本聚類的主要框架,研究和探索借助自組織映射模型進(jìn)行文本聚類的特點(diǎn)以及所面臨的主要問題和相應(yīng)的解決方法。其目的是研究具有良好自適應(yīng)能力的聚類方法,以反映輸入文本集合的主題結(jié)構(gòu),從而減少人工勞動(dòng)并改善信息的訪問效率。
本文研究的主要內(nèi)容包括以下四部分:
第一,本文首先對(duì)現(xiàn)有的幾種經(jīng)典文本聚類方法進(jìn)行了對(duì)比分析。層次聚類方法聚類結(jié)果比較細(xì)膩,但運(yùn)算開銷較大,并且在
3、硬聚類的情況下,如何找到最佳的劃分仍是需要進(jìn)一步研究的問題。相比之下,k-means方法和SOM方法在效率上則存在明顯優(yōu)勢(shì),本文對(duì)二者的聚類性能作了進(jìn)一步的比較分析。針對(duì)k-means方法對(duì)初始分布如聚類k值和初始聚點(diǎn)的選擇比較敏感的問題,本文給出一種改進(jìn)的基于最小最大原則的聚類初始分布選擇方法。該方法利用最小最大原則選擇初始聚點(diǎn),并進(jìn)一步選取初始k值,使得k-means的聚類結(jié)果變得穩(wěn)定,也改善了聚類性能。
第二,本文分析了
4、傳統(tǒng)SOM模型的特點(diǎn),指出其存在的問題是由于固定的網(wǎng)絡(luò)結(jié)構(gòu)難以反映輸入數(shù)據(jù)的結(jié)構(gòu)信息,導(dǎo)致靈活性較差,并且很容易出現(xiàn)神經(jīng)元的欠利用現(xiàn)象。本文提出一種動(dòng)態(tài)變結(jié)構(gòu)模型V-SOM,該方法將分解策略和神經(jīng)元的動(dòng)態(tài)擴(kuò)充相結(jié)合,在聚類準(zhǔn)則函數(shù)的指導(dǎo)下對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行動(dòng)態(tài)自適應(yīng)調(diào)整,以真實(shí)反映輸入文檔的主題分布特征。為了克服由于采用其它輸出層拓?fù)浣Y(jié)構(gòu)進(jìn)行神經(jīng)元擴(kuò)充可能導(dǎo)致的神經(jīng)元欠利用現(xiàn)象,V-SOM采用了閉合的環(huán)形輸出層結(jié)構(gòu)。該模型可以漸進(jìn)地進(jìn)行神經(jīng)
5、元擴(kuò)充,生成的神經(jīng)元個(gè)數(shù)即為聚類塊數(shù),也有利于避免采用其他輸出層結(jié)構(gòu)需要對(duì)神經(jīng)元進(jìn)行二次聚類的問題。
第三,和很多自然語言處理應(yīng)用一樣,文本聚類也是和本體知識(shí)密切相關(guān)的。相關(guān)研究中一般采用基于外延的方法,即不關(guān)心文本的語義,而僅僅根據(jù)文本的外在特征如詞頻等統(tǒng)計(jì)信息進(jìn)行處理,使聚類質(zhì)量受到影響。此外由于語言表達(dá)方式的多樣性,即使同一概念也可能有不同的表達(dá)形式。因此單單依靠特征詞的重復(fù)而產(chǎn)生的頻率信息難以較好的把握和體現(xiàn)語義信息。
6、本文以HowNet作為知識(shí)源,將概念相關(guān)知識(shí)注入,并與統(tǒng)計(jì)信息進(jìn)行有效融合,以便提升對(duì)概念的敏感能力。由于采用部分理解文本語義的方法進(jìn)行文本聚類,因此如果文檔之間具有一定的概念相關(guān)性,模型就可以將其聚為一個(gè)簇中,即使他們之間有較少的公共詞。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。
第四,本文對(duì)聚類描述生成中的重要技術(shù)——關(guān)鍵詞自動(dòng)抽取進(jìn)行了研究和探討。將關(guān)鍵詞自動(dòng)抽取分解為詞的重要性評(píng)價(jià)、關(guān)鍵詞短語構(gòu)成規(guī)則挖掘、冗余檢測(cè)和冗余消除等子問
7、題。由于通常所說的關(guān)鍵詞實(shí)際上有相當(dāng)一部分具有短語形式,本文利用粗集理論在規(guī)則發(fā)現(xiàn)和數(shù)據(jù)泛化方面的優(yōu)勢(shì),對(duì)人工標(biāo)注的關(guān)鍵詞短語語料進(jìn)行挖掘,從而獲得了中文關(guān)鍵詞短語一般構(gòu)成規(guī)則。獲取的規(guī)則可以用于關(guān)鍵詞自動(dòng)抽取,也可以為人工標(biāo)注關(guān)鍵詞短語提供幫助。研究結(jié)果表明粗集的知識(shí)約簡(jiǎn)和規(guī)則發(fā)現(xiàn)能力比較適合進(jìn)行關(guān)鍵詞短語構(gòu)成規(guī)則的挖掘工作。將挖掘出的規(guī)則用于指導(dǎo)關(guān)鍵詞的自動(dòng)抽取,避免了一些錯(cuò)誤的搭配被抽取,從而提高了系統(tǒng)的性能,使抽取結(jié)果更加符合通
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于自組織特征映射網(wǎng)絡(luò)的聚類算法研究.pdf
- 基于自組織特征映射的檢索結(jié)果聚類研究.pdf
- 基于自組織映射思維圖的信任模型.pdf
- 基于自組織聚類的市場(chǎng)細(xì)分方法研究.pdf
- 基于自組織映射的自動(dòng)文摘方法研究.pdf
- 基于動(dòng)態(tài)自組織映射網(wǎng)絡(luò)的異常消費(fèi)行為檢測(cè)的研究.pdf
- 基于自組織映射的驗(yàn)證碼識(shí)別研究.pdf
- 自組織映射聚類算法在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用研究.pdf
- 基于自組織映射的故障診斷方法.pdf
- 基于核自組織映射的時(shí)間序列預(yù)測(cè)研究.pdf
- 基于自組織特征映射的入侵檢測(cè)算法研究.pdf
- 基于自組織特征映射網(wǎng)絡(luò)的DTS智能評(píng)估.pdf
- 基于自組織特征映射的實(shí)時(shí)入侵檢測(cè)系統(tǒng).pdf
- 基于自組織的聚類算法的個(gè)性化推薦算法研究.pdf
- 自組織特征映射神經(jīng)網(wǎng)絡(luò)
- 基于自組織映射網(wǎng)絡(luò)的音樂情感識(shí)別技術(shù)研究.pdf
- 基于自組織映射網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法研究及應(yīng)用.pdf
- 基于LDA模型的文本聚類研究.pdf
- 參數(shù)適應(yīng)自組織映射網(wǎng)絡(luò)的研究與應(yīng)用.pdf
- 基于模糊聚類的自組織神經(jīng)網(wǎng)絡(luò)的用戶模式挖掘算法研究.pdf
評(píng)論
0/150
提交評(píng)論