XML信息檢索關(guān)鍵技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩116頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著XML技術(shù)的廣泛應(yīng)用,XML已成為Web上表示和交換數(shù)據(jù)的標(biāo)準(zhǔn)格式,各個領(lǐng)域不斷涌現(xiàn)出大量的XML數(shù)據(jù)。如何有效檢索大量的XML數(shù)據(jù),是當(dāng)前數(shù)據(jù)庫與信息檢索等領(lǐng)域中一個亟待解決的熱點研究問題。傳統(tǒng)信息檢索技術(shù)在處理非結(jié)構(gòu)化數(shù)據(jù)的檢索上,取得了大量卓有成效的研究成果。XML數(shù)據(jù)具有半結(jié)構(gòu)化特性,既有結(jié)構(gòu)又有內(nèi)容,給信息檢索領(lǐng)域的研究帶來了新的挑戰(zhàn)。將數(shù)據(jù)庫技術(shù)與信息檢索技術(shù)巧妙結(jié)合,用于解決XML檢索問題,已在研究人員中達(dá)成共識,為X

2、ML檢索提供了新思路。
   本文在深入分析XML檢索研究現(xiàn)狀的基礎(chǔ)上,以XML檢索方式為主線,結(jié)合數(shù)據(jù)庫技術(shù)與信息檢索技術(shù),對XML檢索的若干關(guān)鍵技術(shù)進(jìn)行了深入研究,包括XML關(guān)鍵字檢索、模糊結(jié)構(gòu)上下文的XML內(nèi)容與結(jié)構(gòu)檢索、基于關(guān)系數(shù)據(jù)庫的XML全文檢索等內(nèi)容。具體的創(chuàng)新和貢獻(xiàn)如下:
   提出了一種基于候選片段語義的XML關(guān)鍵字檢索方法。該方法首先根據(jù)XML文檔樹中節(jié)點所包含的屬性類型數(shù)量以及節(jié)點的后裔節(jié)點數(shù)量選擇

3、候選節(jié)點,以候選節(jié)點為中心創(chuàng)建候選片段,將候選片段作為回答XML關(guān)鍵字檢索最基本的語義單元;然后,針對候選片段建立倒排索引,在回答關(guān)鍵字查詢時,根據(jù)XML數(shù)據(jù)集自身特點和用戶的選擇返回包含全部關(guān)鍵字的候選片段集合或存在祖先后裔關(guān)系的候選片段集合。實驗結(jié)果表明以候選片段作為XML關(guān)鍵字檢索的基本語義單元,能夠為用戶返回粒度適中、信息比較完整、擁有實際意義的檢索結(jié)果,并且檢索效率也比較理想。
   提出了一種模糊結(jié)構(gòu)上下文的XML檢

4、索方法。該方法將查詢與文檔中的結(jié)構(gòu)化約束條件定義為結(jié)構(gòu)上下文,以結(jié)構(gòu)化詞項集合表示XML查詢和XML文檔。在上下文相似度計算方面,綜合考慮了上下文之間的最大匹配部分以及各元素的層次權(quán)重、元素間的層次相似性等因素,提出了查詢上下文與文檔上下文相似度計算方法。為有效實現(xiàn)XML內(nèi)容與結(jié)構(gòu)檢索,擴(kuò)展了向量空間模型,設(shè)計了模糊結(jié)構(gòu)上下文的XML內(nèi)容與結(jié)構(gòu)檢索算法。實驗結(jié)果表明,該方法在檢索效率、檢索結(jié)果上均有較好性能。
   提出了一種基

5、于關(guān)系數(shù)據(jù)庫的XML全文檢索方法ReXFT。ReXFT采用基于模型映射的XML數(shù)據(jù)存儲方案NXRel,能夠在關(guān)系模型之上自然的體現(xiàn)出XML數(shù)據(jù)邏輯模型。提出了基于全文檢索元素節(jié)點的XML全文索引方案,允許用戶自定義全文索引路徑。ReXFT以W3C推薦的XML全文檢索標(biāo)準(zhǔn)作為XML全文檢索提交形式,檢索語法符合國際標(biāo)準(zhǔn)。綜合考慮XML數(shù)據(jù)層次特性以及檢索詞之間的邏輯關(guān)系、距離、出現(xiàn)頻率等因素,提出了一種基于文本覆蓋密度的檢索結(jié)果計分方法。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論