面向信息檢索的語(yǔ)義計(jì)算技術(shù).pdf_第1頁(yè)
已閱讀1頁(yè),還剩87頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、信息檢索,包括信息的組織、呈現(xiàn)、查詢(xún)、存取等各個(gè)方面,為人們提供了快速、精確地獲取所需信息的方式.信息檢索通常是文本檢索,其核心是根據(jù)用戶(hù)查詢(xún)找到相關(guān)文本,包括"標(biāo)引"和"相似度計(jì)算"兩個(gè)關(guān)鍵技術(shù).隨著信息社會(huì)尤其是互聯(lián)網(wǎng)的發(fā)展,人們對(duì)檢索的要求越來(lái)越高.傳統(tǒng)的基于關(guān)鍵詞匹配的檢索技術(shù),往往存在查不全、查不準(zhǔn)、檢索質(zhì)量不高的問(wèn)題.因此,智能檢索研究已經(jīng)成為熱點(diǎn),并將是支撐下一代互聯(lián)網(wǎng)的核心技術(shù)之一.由于文本大多數(shù)是用非形式化的自然語(yǔ)言表

2、述,因此實(shí)現(xiàn)智能檢索的關(guān)鍵就是要在一定程度上理解自然語(yǔ)言,挖掘出隱藏在文本背后的"語(yǔ)義".從研究現(xiàn)狀來(lái)看,基于詞匯的語(yǔ)義模型是一類(lèi)比較理想的淺層語(yǔ)義表述方式,已經(jīng)有了很多成功的實(shí)踐.因此,在信息檢索中引入智能技術(shù)的一種方案,就是在"標(biāo)引"和"相似度計(jì)算"兩個(gè)關(guān)鍵技術(shù)中引入詞匯語(yǔ)義模型,用淺層語(yǔ)義來(lái)指導(dǎo)檢索過(guò)程,提高檢索的準(zhǔn)確率.這正是文本的選題思路和工作重點(diǎn).該文首先簡(jiǎn)要介紹信息檢索和語(yǔ)義模型的研究現(xiàn)狀,說(shuō)明兩者結(jié)合的必要性和合理性.然

3、后,論述三類(lèi)語(yǔ)義模型(隱含語(yǔ)義標(biāo)引、語(yǔ)義樹(shù)、語(yǔ)義張量)在信息檢索中的應(yīng)用.最后,介紹模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室(NLPR)的信息檢索系統(tǒng)框架、模塊和實(shí)現(xiàn);并利用TREC評(píng)測(cè)來(lái)測(cè)試系統(tǒng)的功能和性能.概括地說(shuō),該文主要有如下一些工作.(1)論述了語(yǔ)義模型與信息檢索中兩個(gè)關(guān)鍵技術(shù)("標(biāo)引"和"相似度計(jì)算")的結(jié)合問(wèn)題;(2)改進(jìn)了隱含語(yǔ)義標(biāo)引模型,提出弱指導(dǎo)的統(tǒng)計(jì)隱含語(yǔ)義標(biāo)引模型,使語(yǔ)義空間分布更合理,效率也更高.這個(gè)模型可以小規(guī)模地應(yīng)用于"查詢(xún)

4、主題詞構(gòu)造"技術(shù);(3)提出了基于語(yǔ)義樹(shù)的語(yǔ)義空間模型.語(yǔ)義空間不再是靜態(tài)的,而是實(shí)時(shí)構(gòu)建的,其靈活性和可操作性?xún)?yōu)于各種隱含語(yǔ)義標(biāo)引模型.尤其在查詢(xún)主題詞擴(kuò)展技術(shù)方面,性能超過(guò)了常見(jiàn)的擴(kuò)展算法;(4)提出了語(yǔ)義張量的概念,并明確了其物理意義,歸納為兩個(gè)核心思想.進(jìn)一步,用窗口系列模型來(lái)表述這兩個(gè)思想,并應(yīng)用于查詢(xún)和文本間的相似度計(jì)算.實(shí)驗(yàn)證明,這類(lèi)模型比傳統(tǒng)的矢量模型更有效;(5)構(gòu)建了NLPR檢索系統(tǒng)框架,并完成了模塊設(shè)計(jì)和編程的工作

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論