版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著Internet技術(shù)的發(fā)展,人類(lèi)已經(jīng)步入信息時(shí)代,網(wǎng)上龐大的數(shù)字化信息與人們獲取所需信息能力之間的矛盾日益突出,怎樣快速準(zhǔn)確地檢索相關(guān)信息已經(jīng)成為當(dāng)今信息領(lǐng)域的研究熱點(diǎn)。到目前為止,國(guó)內(nèi)外研究組織和公司已經(jīng)提出了多種信息檢索模型并研發(fā)出了相應(yīng)的搜索引擎,這些搜索引擎對(duì)于要在網(wǎng)絡(luò)上獲取相關(guān)知識(shí)的用戶(hù)起到了一定的導(dǎo)航的作用,但是同時(shí)也有不少局限性:返回大量的垃圾信息,重要信息丟失等。 本文首先從研究文本信息檢索模型入手,闡述了傳
2、統(tǒng)的信息檢索模型的基本原理及其算法思想,然后著重介紹了有關(guān)領(lǐng)域本體的知識(shí)以及在領(lǐng)域本體參照下三種語(yǔ)義相似度的計(jì)算模型:基于距離的語(yǔ)義相似度計(jì)算模型、基于內(nèi)容的語(yǔ)義相似度計(jì)算模型以及基于屬性的語(yǔ)義相似度計(jì)算模型。得知這三種語(yǔ)義相似度的計(jì)算模型分別從三個(gè)不同的分析角度來(lái)量化概念之間的語(yǔ)義相似度:(1)基于距離的語(yǔ)義相似度計(jì)算模型簡(jiǎn)單、直觀(guān),但它非常依賴(lài)預(yù)先建立好的概念層次網(wǎng)絡(luò),網(wǎng)絡(luò)的結(jié)構(gòu)直接影響到語(yǔ)義相似度的計(jì)算;(2)基于內(nèi)容的語(yǔ)義相似度
3、計(jì)算模型在理論上更有說(shuō)服力,因?yàn)樵谟?jì)算概念之間語(yǔ)義相似度的時(shí)候,充分利用了信息理論和概率統(tǒng)計(jì)理論的相關(guān)知識(shí),但是這種方法不能更細(xì)致的區(qū)分層次網(wǎng)絡(luò)中各個(gè)概念之間語(yǔ)義相似度的值;(3)基于屬性的語(yǔ)義相似度計(jì)算模型可以很好的模擬人們平時(shí)對(duì)現(xiàn)實(shí)世界中事物之間的認(rèn)識(shí)和辨別,但是要求對(duì)客觀(guān)事物的每一個(gè)屬性進(jìn)行詳細(xì)和全面的描述。因此,針對(duì)這三種計(jì)算模型的優(yōu)缺點(diǎn)和領(lǐng)域本體所特有的性質(zhì),提出了一種改進(jìn)的基于領(lǐng)域本體的語(yǔ)義相似度計(jì)算模型,該模型能夠比較準(zhǔn)確
4、地反映概念之間的語(yǔ)義關(guān)系,為概念之間的語(yǔ)義關(guān)系提供一種有效的量化。 論文在上述基礎(chǔ)上,通過(guò)對(duì)基于統(tǒng)計(jì)的信息檢索模型和基于本體的信息檢索模型進(jìn)行分析比較,得知這兩種模型在某種程度上互補(bǔ):(1)基于統(tǒng)計(jì)的信息檢索模型強(qiáng)調(diào)關(guān)鍵字的統(tǒng)計(jì)信息,然而忽略了關(guān)鍵字之間的語(yǔ)義信息;(2)基于本體的信息檢索模型強(qiáng)調(diào)關(guān)鍵字之間的語(yǔ)義信息,然而忽略了關(guān)鍵字的統(tǒng)計(jì)信息。結(jié)合兩種信息檢索模型各自的優(yōu)點(diǎn)提出了一種混合的信息檢索模型。通過(guò)該模型構(gòu)建了一種新的
5、信息檢索系統(tǒng)的原型,并對(duì)該原型系統(tǒng)的幾個(gè)重要的模塊的功能及原理進(jìn)行了說(shuō)明。最后,實(shí)驗(yàn)主要采用JSP作開(kāi)發(fā)技術(shù)構(gòu)建了基于C/S模式的文本信息檢索系統(tǒng),通過(guò)protégée開(kāi)發(fā)《數(shù)據(jù)結(jié)構(gòu)》這門(mén)課程前三章的領(lǐng)域本體,使用ApacheTomcat 5.0作為Web服務(wù)器,采用Microsoft Office XP Access Professional作為數(shù)據(jù)庫(kù)構(gòu)建的實(shí)驗(yàn)環(huán)境。實(shí)驗(yàn)結(jié)果證明該原型用于信息檢索中,其查全率和查準(zhǔn)率方面較基于統(tǒng)計(jì)的信
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 信息檢索中語(yǔ)義分析技術(shù)與文本相似度模型研究.pdf
- 基于本體的文本信息檢索研究.pdf
- 基于文本挖掘的Web信息檢索研究.pdf
- 文本信息檢索的一點(diǎn)研究.pdf
- 語(yǔ)義度量在文本信息檢索的研究.pdf
- 基于本體的企業(yè)文本檢索模型研究.pdf
- 基于統(tǒng)計(jì)語(yǔ)言學(xué)模型的中文文本信息檢索.pdf
- 信息檢索中的查詢(xún)擴(kuò)展與檢索模型研究.pdf
- 基于領(lǐng)域本體的文本信息語(yǔ)義檢索研究.pdf
- 基于本體的文本資源信息檢索服務(wù)研究.pdf
- 中文文本信息檢索相關(guān)技術(shù)研究.pdf
- 基于中文信息檢索的文本預(yù)處理研究.pdf
- 文本信息檢索中修飾語(yǔ)作用的研究.pdf
- 基于概念的信息檢索模型研究.pdf
- 基于語(yǔ)言模型的文本檢索技術(shù)及檢索結(jié)果重排序的研究.pdf
- 面向信息檢索的文本內(nèi)容分析.pdf
- 基于場(chǎng)論的信息檢索模型的研究.pdf
- 基于深度網(wǎng)絡(luò)的信息檢索模型研究.pdf
- 蒙古文信息檢索模型的研究.pdf
- 基于文本信息檢索的知識(shí)發(fā)現(xiàn)技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論