基于微粒群和遺傳優(yōu)化的文本過濾關(guān)鍵技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩99頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、計(jì)算機(jī)技術(shù)的發(fā)展使得網(wǎng)絡(luò)上的各種信息急劇增長,隨之而來的還有大量的冗余信息和垃圾信息.這些信息不但影響 Internet的使用效率和質(zhì)量,而且影響網(wǎng)絡(luò)的健康發(fā)展.在這種情況下,網(wǎng)絡(luò)信息過濾技術(shù)應(yīng)運(yùn)而生,而通常所說信息過濾一般指對文本信息的過濾處理,本文相關(guān)研究就是針對文本信息過濾特別是中文文本信息過濾中存在的問題而提出的.
  國內(nèi)外很多研究機(jī)構(gòu)和個(gè)人針對信息過濾技術(shù),特別是面向中文的信息過濾技術(shù)進(jìn)行了大量的研究工作,也取得了很多

2、成績.但是,由于文本信息特別是中文信息特有的復(fù)雜性、多義性,導(dǎo)致文本信息過濾研究中仍然存在以下問題有待解決:
  (1)基于內(nèi)容的文本信息過濾在分詞后通常產(chǎn)生大量的候選特征項(xiàng),如果把所有的候選特征項(xiàng)都用來進(jìn)行文本表示會增加訓(xùn)練的時(shí)間和空間復(fù)雜度,并且影響過濾效果.因此,尋找適用于文本信息過濾的權(quán)重計(jì)算方法是一個(gè)需要解決的問題.
  (2)在抽取特征項(xiàng)集合基礎(chǔ)上需要選擇適當(dāng)?shù)膬?yōu)化算法生成類別過濾模板,目前建立過濾模板的方法都是

3、對過濾需求的近似表達(dá).因此,選擇一種好的優(yōu)化方法使得生成模板盡可能好的代表類別特征是一個(gè)需要解決的問題.
  (3)在模板匹配過程中都是整個(gè)待分類文檔的匹配和分類,從而忽略了待過濾文本個(gè)性化特征.特別是在過濾網(wǎng)絡(luò)文本時(shí),獲得的網(wǎng)絡(luò)數(shù)據(jù)文本文檔往往都有一些附加信息,如何整理和優(yōu)化待過濾文本是一個(gè)有待于解決的問題.
  (4)由于過濾模板只能無限接近于真實(shí)模板,這就需要采用某種方法對過濾結(jié)果進(jìn)行反饋處理從而調(diào)整過濾模板.如何利用

4、饋結(jié)果及其對應(yīng)的被過濾文檔實(shí)現(xiàn)對過濾效果的改善是一個(gè)有待于解決的問題.
  本文以文本信息過濾為目標(biāo),針對文本信息過濾特別是中文文本信息過濾中存在的問題展開研究,主要創(chuàng)新點(diǎn)包括以下五個(gè)方面:
  (1)提出了一種綜合計(jì)算文檔權(quán)重、段落權(quán)重、句子權(quán)重和特征項(xiàng)權(quán)重的權(quán)重計(jì)算方法基于內(nèi)容的文本信息過濾通常將過濾訓(xùn)練文檔集轉(zhuǎn)換為空間向量的形式供分類算法分析使用.但是,對訓(xùn)練文檔集進(jìn)行分詞后通常產(chǎn)生大量的特征項(xiàng),如果把所有特征項(xiàng)都用來

5、表示類別,會增加文本過濾的時(shí)間和空間復(fù)雜度,且很多詞對文本過濾的貢獻(xiàn)極小,甚至?xí)绊戇^濾效果.本文在研究相關(guān)特征權(quán)重計(jì)算方法的基礎(chǔ)上,綜合考慮待匹配文檔的文檔權(quán)重、句子權(quán)重、段落權(quán)重、特征項(xiàng)權(quán)重以及上下文關(guān)系提出了一種新的特征權(quán)重計(jì)算方法.
  (2)建立了遺傳算法解決中文文本信息過濾問題的模型并通過理論和實(shí)驗(yàn)兩個(gè)方面證明了其可行性無論采用什么方法建立的過濾模板,都只是過濾需求的一種近似表達(dá).但是,針對某一專題的內(nèi)容來講,理論上都

6、存在著一個(gè)真實(shí)的過濾模板,它能夠準(zhǔn)確地表達(dá)過濾需求,這個(gè)真實(shí)模板通過數(shù)學(xué)求解或?qū)嶒?yàn)方法是得不到的,只能通過對初始模板的調(diào)整使它不斷逼近于真實(shí)模板.本文針對應(yīng)用遺傳算法解決中文文本信息過濾問題,建立了問題模型,并在理論上證明了可行性。同時(shí),還根據(jù)在實(shí)際應(yīng)用中存在的問題,引入了自適應(yīng)策略解決應(yīng)用過程中存在的問題.
  (3)給出一種以特征詞概念為中心的邏輯段落結(jié)構(gòu)并實(shí)現(xiàn)了基于邏輯段落的匹配機(jī)方法應(yīng)用向量空間模型進(jìn)行的匹配和分類中,往往

7、都是整個(gè)待分類文檔的匹配和分類,從而忽略了待分類文本中的段落特征.同時(shí),目前針對于段落的匹配機(jī)制也往往是針對傳統(tǒng)的物理段落,即給不同的段落賦予不同的權(quán)值,從而使用這些段落進(jìn)行匹配,這就帶有一定的機(jī)械性。因?yàn)檫@些物理段落往往較短或者本身包含的信息過少,甚至有些段落包含對于分類有副作用的信息.特別是在過濾網(wǎng)絡(luò)文本時(shí),獲得的網(wǎng)絡(luò)數(shù)據(jù)文本文檔往往都有一些附加信息,如果使用這些段落實(shí)施匹配極其容易出現(xiàn)分類誤差和匹配率較低的現(xiàn)象.本文從更加廣泛的詞

8、義出發(fā),建立一種以特征詞概念為中心的邏輯段落結(jié)構(gòu),在此基礎(chǔ)上實(shí)現(xiàn)了基于概念的語義段落的匹配機(jī)制,體現(xiàn)段落個(gè)性化特點(diǎn),提高分類效果.
  (4)改進(jìn)了傳統(tǒng)微粒群算法并實(shí)現(xiàn)了基于改進(jìn)微粒群算法的、結(jié)合協(xié)作過濾思想的模板動態(tài)更新要想獲得更好的分類效果,必須使用大量的訓(xùn)練文本對系統(tǒng)進(jìn)行訓(xùn)練.而訓(xùn)練文本從收集、篩選再到人工標(biāo)注需要耗費(fèi)大量的人力物力.待分類文檔又名未標(biāo)記文檔,因不需要標(biāo)注和整理,在使用過程中就可以獲得,所以代價(jià)要小得多.如果

9、能有效利用待分類文檔來調(diào)整過濾系統(tǒng),將會帶來事半功倍的效果.本文在論述內(nèi)容過濾和協(xié)作過濾兩種主要技術(shù)的基礎(chǔ)上,針對它們存在的問題,提出一種結(jié)合兩種過濾技術(shù)的混合方法.該方法應(yīng)用遺傳優(yōu)化生成服務(wù)器端初始模板,應(yīng)用粒子群優(yōu)化用戶返回信息實(shí)現(xiàn)模板更新,并且針對傳統(tǒng)微粒群算法進(jìn)行了改進(jìn).
  (5)設(shè)計(jì)了基于上述改進(jìn)策略的文本信息過濾模型并開發(fā)實(shí)現(xiàn)了系統(tǒng)結(jié)合本文提出的融合段落特征的權(quán)重計(jì)算方法、基于模糊遺傳算法的過濾模板生成算法、基于概念

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論