版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、當(dāng)今社會(huì),互聯(lián)網(wǎng)中所包含的種類繁多內(nèi)容豐富的知識(shí)資源,為我們?nèi)粘W(xué)習(xí)和工作中面對(duì)問題時(shí)尋求幫助和獲取信息提供了很大的方便。目前的Google和百度等搜索引擎是人們從網(wǎng)絡(luò)中獲取信息的主要途徑,然而,這些傳統(tǒng)的搜索引擎隨著用戶對(duì)信息精確性和時(shí)間高效性要求的提高,暴露出一些弊端,例如,它按照關(guān)鍵詞組合的形式分析用戶輸入的查詢語句,這會(huì)對(duì)用戶的搜索目的產(chǎn)生偏差,返回給用戶的結(jié)果是大量網(wǎng)頁的集合,需要用戶去甄別和查找,而非用戶希望得到的準(zhǔn)確簡(jiǎn)潔的
2、答案。在傳統(tǒng)搜索引擎的基礎(chǔ)上,新一代的自動(dòng)問答系統(tǒng)因?yàn)槠涓咝?shí)用的特點(diǎn),成為信息檢索領(lǐng)域的研究熱點(diǎn)和趨勢(shì)。一方面,它方便用戶使用自然語言提問,另一方面,返回給用戶的是最終的答案,具有較高的理論研究?jī)r(jià)值和廣闊的應(yīng)用前景。
自動(dòng)問答系統(tǒng)一般主要包括問題分析,信息檢索和答案抽取三個(gè)模塊。其中答案抽取是問答系統(tǒng)的最后關(guān)鍵步驟,能否做好這一步關(guān)系著提交給用戶的答案是否準(zhǔn)確和高效。本文主要針對(duì)最后一步答案源獲取方法進(jìn)行研究,結(jié)合前人的
3、研究成果,在Web網(wǎng)頁的抓取,網(wǎng)頁去重,網(wǎng)頁信息提取等方面進(jìn)行了研究,主要進(jìn)行了以下工作:
(1)針對(duì)用戶提出的問題在Web中搜尋對(duì)應(yīng)的答案網(wǎng)頁,在傳統(tǒng)搜索引擎的平臺(tái)上,將相關(guān)的答案網(wǎng)頁保存到本地。在本實(shí)驗(yàn)設(shè)計(jì)中,我們借助百度知道的知識(shí)庫,通過Crawler爬蟲程序,依據(jù)相應(yīng)的抓取算法,從URL鏈向深度和廣度抓取一定數(shù)量的網(wǎng)頁,作為我們下一步信息提取的答案源庫。
(2)在抓取網(wǎng)頁文檔的過程中,針對(duì)網(wǎng)絡(luò)中存在的
4、大量?jī)?nèi)容相同和相似的網(wǎng)頁,會(huì)增加系統(tǒng)的開銷和降低效率。通過借鑒前人在網(wǎng)頁去重方面的相關(guān)研究成果,引入了基于文本塊,利用shingle和基于集合統(tǒng)計(jì)的網(wǎng)頁去重方法,并給出了測(cè)評(píng)的標(biāo)準(zhǔn)。
(3)在對(duì)網(wǎng)頁文檔信息提取的過程中,可以將網(wǎng)頁標(biāo)簽,無關(guān)的廣告和圖片等信息進(jìn)行過濾,利用DOM樹的節(jié)點(diǎn)結(jié)構(gòu)來結(jié)構(gòu)化表示網(wǎng)頁內(nèi)容,從節(jié)點(diǎn)中提取出網(wǎng)頁文檔的文本信息,為后續(xù)的答案提取做準(zhǔn)備。設(shè)計(jì)實(shí)驗(yàn)方案,給出相關(guān)說明。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向開放域的問答系統(tǒng)答案獲取技術(shù)研究與實(shí)現(xiàn).pdf
- 面向問答系統(tǒng)的答案獲取方法研究與實(shí)現(xiàn).pdf
- 面向開放域問答的答案抽取方法及相關(guān)技術(shù)研究.pdf
- 開放域的自動(dòng)問答系統(tǒng)的研究.pdf
- 受限域問答系統(tǒng)問句分類方法研究.pdf
- 基于Internet的問答系統(tǒng)答案抽取方法研究與實(shí)現(xiàn).pdf
- 開放獲取期刊資源采集系統(tǒng)研究與實(shí)現(xiàn).pdf
- 限定域問答系統(tǒng)自動(dòng)建庫及檢索研究與系統(tǒng)設(shè)計(jì)實(shí)現(xiàn).pdf
- 面向開放域的中文問答系統(tǒng)問句處理相關(guān)技術(shù)研究.pdf
- 中文開放域關(guān)系抽取研究與實(shí)現(xiàn).pdf
- 基于問答社區(qū)的軟件需求獲取與排序方法研究.pdf
- 中文口語交互式開放域問答系統(tǒng)關(guān)鍵技術(shù)研究.pdf
- 開放獲取期刊質(zhì)量控制方法研究.pdf
- 中文問答系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 開放問答系統(tǒng)輔助教學(xué)的研究與實(shí)踐.pdf
- 開放獲取期刊資源長(zhǎng)期保存的體系與實(shí)現(xiàn)研究.pdf
- 基于非結(jié)構(gòu)化文檔的開放域自動(dòng)問答系統(tǒng)技術(shù)研究.pdf
- 智能問答系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 實(shí)用問答系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 開放域命名實(shí)體識(shí)別及其層次化類別獲取.pdf
評(píng)論
0/150
提交評(píng)論