基于動(dòng)態(tài)自組織映射模型的文本聚類研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-11 格式：pdf 頁數(shù)：123 大?。?71.42KB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁，還剩122頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著網(wǎng)絡(luò)信息的飛速增長(zhǎng)和搜索引擎等技術(shù)的日趨成熟，人類社會(huì)所面臨的主要問題已經(jīng)不再是信息匱乏，而是如何提高信息獲取和信息訪問的效率。文本聚類技術(shù)具有較強(qiáng)的靈活性和自動(dòng)處理能力，已經(jīng)成為對(duì)文本信息進(jìn)行有效地組織和導(dǎo)航的重要手段。盡管目前圍繞文本自動(dòng)聚類技術(shù)的研究已經(jīng)取得了一些進(jìn)展，當(dāng)前人們?nèi)匀幻媾R聚類質(zhì)量較低、對(duì)語義知識(shí)把握不足等問題。
　　為了解決上述問題，本文在對(duì)幾種比較經(jīng)典的文本聚類方法進(jìn)行對(duì)比分析的基礎(chǔ)上，考慮到自組織映射網(wǎng)

2、絡(luò)在拓?fù)浔Ｐ蚝涂乖肼暷芰Φ确矫娴膬?yōu)勢(shì)，以自組織映射模型作為文本聚類的主要框架，研究和探索借助自組織映射模型進(jìn)行文本聚類的特點(diǎn)以及所面臨的主要問題和相應(yīng)的解決方法。其目的是研究具有良好自適應(yīng)能力的聚類方法，以反映輸入文本集合的主題結(jié)構(gòu)，從而減少人工勞動(dòng)并改善信息的訪問效率。
　　本文研究的主要內(nèi)容包括以下四部分：
　　第一，本文首先對(duì)現(xiàn)有的幾種經(jīng)典文本聚類方法進(jìn)行了對(duì)比分析。層次聚類方法聚類結(jié)果比較細(xì)膩，但運(yùn)算開銷較大，并且在

3、硬聚類的情況下，如何找到最佳的劃分仍是需要進(jìn)一步研究的問題。相比之下，k-means方法和SOM方法在效率上則存在明顯優(yōu)勢(shì)，本文對(duì)二者的聚類性能作了進(jìn)一步的比較分析。針對(duì)k-means方法對(duì)初始分布如聚類k值和初始聚點(diǎn)的選擇比較敏感的問題，本文給出一種改進(jìn)的基于最小最大原則的聚類初始分布選擇方法。該方法利用最小最大原則選擇初始聚點(diǎn)，并進(jìn)一步選取初始k值，使得k-means的聚類結(jié)果變得穩(wěn)定，也改善了聚類性能。
　　第二，本文分析了

4、傳統(tǒng)SOM模型的特點(diǎn)，指出其存在的問題是由于固定的網(wǎng)絡(luò)結(jié)構(gòu)難以反映輸入數(shù)據(jù)的結(jié)構(gòu)信息，導(dǎo)致靈活性較差，并且很容易出現(xiàn)神經(jīng)元的欠利用現(xiàn)象。本文提出一種動(dòng)態(tài)變結(jié)構(gòu)模型V-SOM，該方法將分解策略和神經(jīng)元的動(dòng)態(tài)擴(kuò)充相結(jié)合，在聚類準(zhǔn)則函數(shù)的指導(dǎo)下對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行動(dòng)態(tài)自適應(yīng)調(diào)整，以真實(shí)反映輸入文檔的主題分布特征。為了克服由于采用其它輸出層拓?fù)浣Y(jié)構(gòu)進(jìn)行神經(jīng)元擴(kuò)充可能導(dǎo)致的神經(jīng)元欠利用現(xiàn)象，V-SOM采用了閉合的環(huán)形輸出層結(jié)構(gòu)。該模型可以漸進(jìn)地進(jìn)行神經(jīng)

5、元擴(kuò)充，生成的神經(jīng)元個(gè)數(shù)即為聚類塊數(shù)，也有利于避免采用其他輸出層結(jié)構(gòu)需要對(duì)神經(jīng)元進(jìn)行二次聚類的問題。
　　第三，和很多自然語言處理應(yīng)用一樣，文本聚類也是和本體知識(shí)密切相關(guān)的。相關(guān)研究中一般采用基于外延的方法，即不關(guān)心文本的語義，而僅僅根據(jù)文本的外在特征如詞頻等統(tǒng)計(jì)信息進(jìn)行處理，使聚類質(zhì)量受到影響。此外由于語言表達(dá)方式的多樣性，即使同一概念也可能有不同的表達(dá)形式。因此單單依靠特征詞的重復(fù)而產(chǎn)生的頻率信息難以較好的把握和體現(xiàn)語義信息。

6、本文以HowNet作為知識(shí)源，將概念相關(guān)知識(shí)注入，并與統(tǒng)計(jì)信息進(jìn)行有效融合，以便提升對(duì)概念的敏感能力。由于采用部分理解文本語義的方法進(jìn)行文本聚類，因此如果文檔之間具有一定的概念相關(guān)性，模型就可以將其聚為一個(gè)簇中，即使他們之間有較少的公共詞。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。
　　第四，本文對(duì)聚類描述生成中的重要技術(shù)——關(guān)鍵詞自動(dòng)抽取進(jìn)行了研究和探討。將關(guān)鍵詞自動(dòng)抽取分解為詞的重要性評(píng)價(jià)、關(guān)鍵詞短語構(gòu)成規(guī)則挖掘、冗余檢測(cè)和冗余消除等子問

7、題。由于通常所說的關(guān)鍵詞實(shí)際上有相當(dāng)一部分具有短語形式，本文利用粗集理論在規(guī)則發(fā)現(xiàn)和數(shù)據(jù)泛化方面的優(yōu)勢(shì)，對(duì)人工標(biāo)注的關(guān)鍵詞短語語料進(jìn)行挖掘，從而獲得了中文關(guān)鍵詞短語一般構(gòu)成規(guī)則。獲取的規(guī)則可以用于關(guān)鍵詞自動(dòng)抽取，也可以為人工標(biāo)注關(guān)鍵詞短語提供幫助。研究結(jié)果表明粗集的知識(shí)約簡(jiǎn)和規(guī)則發(fā)現(xiàn)能力比較適合進(jìn)行關(guān)鍵詞短語構(gòu)成規(guī)則的挖掘工作。將挖掘出的規(guī)則用于指導(dǎo)關(guān)鍵詞的自動(dòng)抽取，避免了一些錯(cuò)誤的搭配被抽取，從而提高了系統(tǒng)的性能，使抽取結(jié)果更加符合通

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于動(dòng)態(tài)自組織映射模型的文本聚類研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于動(dòng)態(tài)自組織映射模型的文本聚類研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載