2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩67頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、整個Web的規(guī)模和資源正在不斷擴大、深化,其中Web數據庫資源難以通過傳統(tǒng)搜索引擎索引到,所以被稱之為“DeepWeb”,其蘊含的信息量更大、質量更高、結構化程度更高、主題更專一。因此,對DeepWeb資源進行大規(guī)模的信息集成具有重要的現實意義。
  DeepWeb查詢接口是獲取Web數據庫信息的重要途徑,同時DeepWeb查詢接口模式匹配問題貫穿于DeepWeb查詢處理過程的始終。因此,本文對同一領域的DeepWeb查詢接口模式

2、匹配進行了深入研究,主要研究成果如下:
 ?、俦疚淖プ∧程囟I域屬性在各個數據源中的共現模式,即具有組關系的屬性通常會一起出現,以及具有匹配關系的屬性幾乎不會一起出現的特點,從整體著眼,同時匹配所有模式。相比于模式的兩兩匹配,這種整體性的匹配方法可以挖掘出隱藏較深的匹配知識;
  ②針對已有的相關性度量未能準確地反映屬性之間相關性強度的問題,為提高模式匹配的準確性和完整性,本文改進了組關系度量和匹配關系度量;
 ?、劭?/p>

3、慮到匹配得分閾值因依賴于領域而較難確定的特點,為保證算法的靈活性,算法取消了該閾值的設置。
 ?、茏詈螅捎靡环N貪心策略從找到的所有候選的復雜匹配集中,識別出具有更高匹配得分和更豐富語義的匹配關系,從而找到特定領域真正的多分支復雜匹配集。實驗表明,利用本文的模式匹配算法發(fā)現的特定領域的多分支復雜匹配具有更高的準確率和召回率。
  當Web數據庫中的數據經查詢處理后,以HTML頁面的形式展現時,數據庫相關模式結構信息完全丟失,

4、而且目前的查詢結果僅供人工瀏覽。為了使獲得的數據具有更高的使用價值,這些數據必須是機器可理解和可處理的。DeepWeb語義標注作為DeepWeb數據集成中查詢處理模塊的一個重要分支,其主要工作是對從DeepWeb查詢結果頁面中抽取的數據添加相應的語義信息,使得計算機能夠理解并處理這些數據,進而方便數據集成系統(tǒng)中后續(xù)模塊的執(zhí)行。因此,本文對DeepWeb查詢結果的語義標注做了深入研究,主要研究成果如下:
 ?、偻ㄟ^分析Web數據庫查

5、詢接口頁面和查詢結果頁面數據的特征,歸納總結出一些啟發(fā)式信息,即考慮一些領域知識和特定領域中某些屬性在位置上的鄰接關系,從而提出了基于啟發(fā)式信息的語義標注方法;
  ②逐條地將這些啟發(fā)式信息對待標注的數據進行分析,從而找出每個待標注數據單元的語義詞匯,并生成XML格式的標注文件。最后,將本文的方法對多個領域的DeepWeb數據進行語義標注實驗,實驗結果表明,本文提出的標注方法對于DeepWeb查詢結果數據具有較好的標注效果。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論