基于鄰域本體的圖情博客語義搜索系統(tǒng)研究.pdf_第1頁
已閱讀1頁,還剩94頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、隨著Web2.0的迅猛發(fā)展,其中的服務(wù)項(xiàng)目--Blog的網(wǎng)頁數(shù)量急劇增長,如何在數(shù)以百萬的Blog頁面中找到主題相關(guān)的Blog網(wǎng)頁成為博客檢索的一個(gè)重要研究內(nèi)容。由于Blog網(wǎng)頁資源的獨(dú)特特征,普通的網(wǎng)頁搜索引擎對Blog的檢索效率不高,于是針對Blog頁面的專業(yè)搜索引擎Blog搜索引擎誕生了。然而現(xiàn)有Blog搜索引擎技術(shù)存在一些不足,表現(xiàn)在以下三個(gè)方面:第一,現(xiàn)有對博客資源搜索的研究未涉及到語義組織層面;第二,目前的Blog搜索引擎不

2、支持語義查詢擴(kuò)展;第三,現(xiàn)在國內(nèi)外的Blog搜索引擎檢索結(jié)果都差強(qiáng)人意。目前尚無專門用于專業(yè)領(lǐng)域?qū)W術(shù)博客的語義搜索系統(tǒng),研究人員一般借助現(xiàn)存可用的通用網(wǎng)頁搜索引擎等工具來實(shí)現(xiàn)檢索。因此開發(fā)一個(gè)適用于某一領(lǐng)域?qū)W術(shù)博客的專業(yè)搜索系統(tǒng)將會(huì)給研究人員的工作帶來更多的方便。
   本文從這一實(shí)際出發(fā),基于自身所學(xué)知識(shí),選擇與專業(yè)相關(guān)的圖情領(lǐng)域?qū)W術(shù)博客作為研究對象,探討了一種新的信息檢索模式--圖情博客語義檢索,即以領(lǐng)域本體庫作為概念支撐,

3、從傳統(tǒng)的面向句法和結(jié)構(gòu)的關(guān)鍵詞匹配轉(zhuǎn)變?yōu)槊嫦蛘Z義概念的推理,使整個(gè)博客資源的搜索上升到語義層面。筆者從語義信息描述、語義本體構(gòu)建、語義檢索幾個(gè)方面對圖情博客語義檢索系統(tǒng)的關(guān)鍵問題進(jìn)行了深入分析和研究,選擇有代表性的圖情博客資源作為實(shí)例對象,利用本體構(gòu)建的方法,構(gòu)建了圖情領(lǐng)域本體,在此基礎(chǔ)上,通過概念之間的語義聯(lián)系,實(shí)現(xiàn)對圖情博客資源的語義描述、圖情博客語義檢索系統(tǒng)的設(shè)計(jì)、構(gòu)建和實(shí)現(xiàn)。該系統(tǒng)的測試結(jié)果表明,文中提出的博客資源語義檢索模式與

4、傳統(tǒng)搜索引擎相比更能為用戶提供準(zhǔn)確的信息,說明語義檢索能夠滿足用戶語義層面的需要。
   本文主要研究內(nèi)容如下:1、語義信息描述。本體是語義信息的描述基礎(chǔ),語義信息主要由語義類、語義屬性、語義關(guān)系、語義規(guī)則和語義實(shí)例構(gòu)成,而這和本體中的概念、概念屬性、概念關(guān)系、規(guī)則和公理、本體實(shí)例對應(yīng);語義信息提取是本體實(shí)例化的一種重要形式,在語義信息描述模式被定義后,所有的類或概念、屬性、關(guān)系將根據(jù)實(shí)際情況進(jìn)行具體賦值,這個(gè)過程也可以稱為本體

5、實(shí)例化;本體是語義檢索的構(gòu)成基礎(chǔ)之一,由于本體本身具有一定的推理功能,可以利用本體進(jìn)行擴(kuò)展查詢,從而使檢索結(jié)果更加全面。本文引入本體概念描述圖情博客資源,具體介紹了本體的功能、結(jié)構(gòu)、構(gòu)建方法和描述工具,分析了幾種構(gòu)建方法和工具的利弊,選用七步法配會(huì)Protégé工具構(gòu)建圖情領(lǐng)域本體。
   2、領(lǐng)域本體知識(shí)庫構(gòu)建。由以上對語義信息描述的研究可知,一個(gè)專業(yè)的領(lǐng)域本體的構(gòu)建需要有完善的領(lǐng)域概念框架。本文試圖利用《中國圖書館分類主題詞

6、表》和《漢語敘詞表》中規(guī)范的敘詞和關(guān)系來搭建圖情領(lǐng)域本體的基本框架體系。因此,筆者分析了敘詞表和本體的聯(lián)系和區(qū)別,指出其結(jié)構(gòu)上的相似性,并闡述了基于敘詞表向本體轉(zhuǎn)換的可行性和必然性,提出了具體的轉(zhuǎn)化步驟。在此基礎(chǔ)上,進(jìn)行圖情領(lǐng)域本體的構(gòu)建,給出了構(gòu)建原則、步驟、本體結(jié)構(gòu)和詳細(xì)的構(gòu)建實(shí)例,并通過設(shè)計(jì)算法實(shí)現(xiàn)形式化本體的生成和導(dǎo)出。然后設(shè)計(jì)并實(shí)現(xiàn)了以敘詞表為基本框架的圖情博客本體的語義檢索系統(tǒng)。
   3、圖情博客語義檢索。語義檢索

7、的主要任務(wù)是從某一領(lǐng)域相關(guān)的非結(jié)構(gòu)化信息、半結(jié)構(gòu)化語義信息和結(jié)構(gòu)化信息中提取語義實(shí)體和語義關(guān)系實(shí)例,并將結(jié)果存儲(chǔ)到檢索結(jié)果庫中。對于圖情學(xué)術(shù)博客這一有特殊結(jié)構(gòu)形式的半結(jié)構(gòu)化網(wǎng)頁信息,通過建立原有結(jié)構(gòu)和語義類及屬性之間的映射關(guān)系,可以進(jìn)行數(shù)字化處理。本文研究的語義檢索是區(qū)別于傳統(tǒng)關(guān)鍵詞檢索的,對檢索條件、信息組織及檢索結(jié)果都賦予了一定語義成份的新的檢索方式。從語義信息檢索的新模式出發(fā),詳細(xì)分析和研究了基于本體驅(qū)動(dòng)的圖情博客語義檢索系統(tǒng)的總

8、體結(jié)構(gòu)以及詳細(xì)功能模塊設(shè)計(jì),并對系統(tǒng)的功能進(jìn)行了測試和評價(jià),證明了本文提出方法的可行性。由此證明了這種新的語義檢索模式能夠提高博客資源的利用率,更好的滿足用戶檢索需求。最后,總結(jié)了本文研究中存在的問題,提出了后續(xù)研究的方向和內(nèi)容。
   本文以敘詞表為框架的圖情博客領(lǐng)域本體構(gòu)建方法研究以及基于該領(lǐng)域本體的語義搜索引擎系統(tǒng)的設(shè)計(jì)、開發(fā)與實(shí)現(xiàn)是本文的重點(diǎn)研究內(nèi)容和創(chuàng)新之處。該原型系統(tǒng)證明了基于敘詞表構(gòu)建博客領(lǐng)域本體并實(shí)現(xiàn)語義檢索的可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論