XML文檔交互式信息檢索技術研究.pdf_第1頁
已閱讀1頁,還剩135頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、XML作為互聯(lián)網(wǎng)上信息描述和數(shù)據(jù)交換事實上的標準,已經(jīng)被業(yè)界廣泛采用。隨著Web上大量XML文檔的涌現(xiàn),如何對XML文檔進行有效的檢索成為了一個具有實際應用價值的重要研究課題。由于XML文檔是一種半結(jié)構(gòu)化的數(shù)據(jù),具有明顯的結(jié)構(gòu)標記,可表達一定的語義信息。因此,可以利用XML文檔所含有的結(jié)構(gòu)信息,改進傳統(tǒng)的基于關鍵詞的信息檢索,從而提供更加全面準確的檢索結(jié)果。但是,由于XML文檔結(jié)構(gòu)的復雜性、異構(gòu)性以及可擴展性,使得如何在信息檢索的過程中

2、有效利用XML文檔的結(jié)構(gòu)信息成為了XML信息檢索所面臨的首個挑戰(zhàn)。
   源于數(shù)據(jù)庫的XML查詢語言可以表達復雜的信息需求,但是要形成有效的結(jié)構(gòu)化查詢對于最終用戶來說是非常困難的事情。因為用戶可能并不熟悉文檔結(jié)構(gòu),所以很難提出準確的“內(nèi)容+結(jié)構(gòu)”的結(jié)構(gòu)化查詢?;陉P鍵詞的XML信息檢索依然面臨著用戶需求表達模糊的問題。XML信息檢索實際上也是一個交互式的檢索過程,相關反饋、檢索結(jié)果聚類等交互式信息檢索技術在XML信息檢索中依然存

3、在,而且有其獨特的特點。例如,如何利用關鍵詞檢索的簡單性迅速返回查詢結(jié)果,然后根據(jù)用戶的相關反饋等信息,系統(tǒng)自動形成或幫助用戶形成內(nèi)容+結(jié)構(gòu)查詢,以清晰地表達用戶信息需求;如何根據(jù)XML文檔的內(nèi)容和結(jié)構(gòu)特征聚類XML信息檢索結(jié)果,以幫助用戶迅速找到滿足其需求的信息。因此,如何利用交互式信息檢索技術改進XML信息檢索的準確性是XML信息檢索所面臨的又一個挑戰(zhàn)。
   本文從XML信息檢索所面臨的這兩個挑戰(zhàn)入手展開研究,以XML文檔

4、交互式信息檢索技術作為研究課題,主要研究兩個問題:第一個問題是如何有效地結(jié)合結(jié)構(gòu)信息和內(nèi)容信息實現(xiàn)XML信息檢索,主要包括XML節(jié)點編碼、索引、檢索模型和查詢處理算法;第二個問題是如何進一步解決XML信息檢索中同樣存在著的用戶信息需求表達模糊的問題,即研究相關反饋、檢索結(jié)果聚類等交互式XML信息檢索的一些關鍵技術。本文所做的主要工作和貢獻包括以下幾個部分:
   1) XML節(jié)點編碼模式及索引結(jié)構(gòu)的研究。提出了一種新穎有效的節(jié)點

5、編碼模式,詳細論述了該節(jié)點編碼模式的定義和性質(zhì)。在這個新的節(jié)點編碼模式的基礎上,構(gòu)建了一種有效地集成結(jié)構(gòu)索引和文本內(nèi)容索引的混合索引結(jié)構(gòu)HID。該混合索引結(jié)構(gòu)HID能夠有效地支持XML信息檢索,包括關鍵詞檢索和結(jié)構(gòu)化查詢。對比實驗結(jié)果表明本文所提出的新的混合索引結(jié)構(gòu)HID在索引構(gòu)建時間和空間消耗上具有較佳的性能。
   2) XML信息檢索模型及查詢處理算法的研究。提出了一種用于XML信息檢索的模糊結(jié)構(gòu)向量空間模型。通過將文本內(nèi)

6、容特征詞的概念擴展為結(jié)構(gòu)化特征詞,對向量空間模型進行擴展,使其能夠包含結(jié)構(gòu)信息的匹配和度量;同時將特征詞在文檔中出現(xiàn)的概念由一個精確的集合隸屬關系,擴展為一個模糊集合隸屬度的概念,以實現(xiàn)內(nèi)容和結(jié)構(gòu)信息的整體匹配,而且能夠區(qū)別結(jié)構(gòu)的匹配程度,建模不同程度的匹配為不同程度的重要性。該檢索模型可統(tǒng)一建模關鍵詞查詢、標記關鍵詞查詢和路徑關鍵詞查詢。最后給出了有效實現(xiàn)檢索模型相應的查詢處理算法,并實現(xiàn)了一個XML信息檢索原型系統(tǒng)。對比實驗結(jié)果表明

7、本文所構(gòu)建的XML信息檢索原型系統(tǒng)具有較高的檢索準確率和較快的查詢響應時間。
   3) XML信息檢索相關反饋技術研究。提出了一種新的結(jié)合內(nèi)容和結(jié)構(gòu)的XML信息檢索結(jié)構(gòu)化相關反饋方法,能夠有效地結(jié)合內(nèi)容和結(jié)構(gòu)特征等多種證據(jù)源,實現(xiàn)將初始的關鍵詞查詢擴展為內(nèi)容+結(jié)構(gòu)的結(jié)構(gòu)化查詢。該結(jié)構(gòu)化相關反饋方法通過內(nèi)容查詢詞擴展、查詢詞路徑擴展和檢索元素粒度相關反饋三種算法擴展初始的關鍵詞查詢。內(nèi)容查詢詞的擴展和重新權(quán)重綜合考慮了出現(xiàn)特征詞

8、的相關公共元素的數(shù)目、特征詞在相關元素中的重要性、特征詞鄰接距離和結(jié)構(gòu)語義等多種證據(jù)。實驗結(jié)果表明本文所提出的結(jié)構(gòu)化查詢相關反饋方法可以有效地改進XML信息檢索的準確率。
   4) XML信息檢索結(jié)果聚類技術研究。針對XML文檔的特點,提出了一種新的結(jié)合內(nèi)容和結(jié)構(gòu)特征的XML文檔特征建模方法,能夠有效地度量XML信息檢索結(jié)果文檔片斷間的相似性。將XML信息檢索結(jié)果聚類問題建模為k-中心聚類問題,通過改進解決k-中心聚類問題的貪

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論