版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、面向開放域的問答系統(tǒng)是自然語言處理領(lǐng)域中最具有挑戰(zhàn)性的熱點研究問題之一。隨著互聯(lián)網(wǎng)的飛速發(fā)展與普及,信息量的急速膨脹,有效查找和利用這些信息的迫切需求使得信息檢索與信息抽取技術(shù)更加重要。但傳統(tǒng)的檢索系統(tǒng)以及搜索引擎存在的一些弊端隨著信息量的不斷膨脹,日漸突出,給用戶帶來了諸多的不便,基于關(guān)鍵詞的信息檢索系統(tǒng)已經(jīng)無法滿足人們的需要。人們越來越渴望只要直接提出自然語言問句,就能準(zhǔn)確地獲取問題的答案,這也正是開放域問答系統(tǒng)的最終目標(biāo)。面向開放
2、域的問答系統(tǒng)被稱為下一代搜索引擎的發(fā)展方向,具有重大的現(xiàn)實意義。問答系統(tǒng)既允許用戶以自然語言提問,又能夠向用戶返回準(zhǔn)確的答案,而不是一些內(nèi)容相關(guān)的文檔。這個任務(wù)看似簡單,但對于計算機(jī)的信息處理技術(shù)具有很大的挑戰(zhàn)性。本文正是在這種前提下,對面向開放域的問答技術(shù)進(jìn)行了探索性研究。
國際TREC評測是計算機(jī)領(lǐng)域全球著名的評測會議,它為推動信息處理技術(shù)的發(fā)展起到了十分重要的作用。其中,面向開放域問答系統(tǒng)的評測任務(wù)是目前國際上面向問答系
3、統(tǒng)組織規(guī)模最大,系統(tǒng)水平最高,最具權(quán)威性的公共測試平臺。從1999年開始,到現(xiàn)在已經(jīng)進(jìn)行了八屆比賽。本文若干技術(shù)的研究正是以TRECQA評測為依托平臺,面向所開發(fā)的問答系統(tǒng)—InsunQA系統(tǒng),將其作為系統(tǒng)的主要支撐技術(shù)。InsunQA問答系統(tǒng)面向大規(guī)模海量數(shù)據(jù)集,實現(xiàn)了對自然語言問句的答案精確抽取,并順利完成兩屆TRECQA評測任務(wù)。本文的研究涉及系統(tǒng)若干關(guān)鍵技術(shù)的實現(xiàn),具體包括以下幾個方面:
第一,針對問題分類任務(wù),提出了
4、基于粗糙集理論的問題分類方法。通過粗糙集理論所支持的多個知識獲取步驟(如:數(shù)據(jù)預(yù)處理、屬性與值約簡、規(guī)則生成、數(shù)據(jù)依賴關(guān)系獲取等),實現(xiàn)了問題分類規(guī)則的自動生成與優(yōu)化,避免了大量手工整理規(guī)則的勞動以及人為選擇特征的主觀干擾,具有分類精度高和自動化程度好的特點。
第二,詞變體和縮略詞的識別是對問句進(jìn)行擴(kuò)展的主要手段之一。針對這個問題提出了基于形態(tài)學(xué)與語義計算相結(jié)合的詞變體、縮略詞識別方法。通過采用無監(jiān)督的結(jié)構(gòu)化學(xué)習(xí)策略,避免了人
5、工編寫詞典的人力開銷。同時本方法沒有任何語言學(xué)知識介入,識別效率因而得到了一定的提高。
第三,答案抽取是問答系統(tǒng)的重要組成部分,它是問答系統(tǒng)區(qū)別于傳統(tǒng)信息檢索系統(tǒng)的標(biāo)志。答案抽取的準(zhǔn)確率對最終問答系統(tǒng)的效果起著決定性的作用。本文針對形式化答案抽取技術(shù)進(jìn)行了深入研究。闡述了基于人工方法與模式學(xué)習(xí)相結(jié)合的模式庫構(gòu)建方法,并重點研究了影響形式化答案抽取效果的一些主要因素,如模式泛化、模式評價以及模式標(biāo)記可靠性等問題。其中,創(chuàng)造性地提
6、出基于模式主成份不變原則的泛化處理技術(shù),顯著地提高了答案抽取的準(zhǔn)確率。
第四,通過對答案抽取研究的進(jìn)一步擴(kuò)展,提出了聚類分層抽樣邏輯回歸的預(yù)測模型。該模型主要針對失衡數(shù)據(jù)集的預(yù)測分析。模型采用分層抽樣的方法對進(jìn)行預(yù)測的樣本進(jìn)行采集,并創(chuàng)造性地采用分割聚類的思想解決了分層抽樣中層次劃分這個難點問題,使得層次的劃分更加具有理論依據(jù);由于采用分層抽樣條件下傳統(tǒng)邏輯回歸模型會造成估計值的偏差,因此,本文提出失衡數(shù)據(jù)集下采用分層抽樣邏輯
7、回歸的一種估計偏差補(bǔ)償方法,理論分析了估計偏差與數(shù)據(jù)失衡之間的關(guān)系。最后,本文將預(yù)測模型實際用于答案抽取應(yīng)用中,實現(xiàn)準(zhǔn)確抽取問題答案的功能。
第五,答案抽取是失衡數(shù)據(jù)集分類的典型應(yīng)用,通過對失衡數(shù)據(jù)集分類問題的深入研究,本文為失衡數(shù)據(jù)集的分類問題提出了一套完整的解決方案,即基于混合策略的失衡數(shù)據(jù)集分類方法。首先,通過采用聚類抽樣的方法對失衡數(shù)據(jù)進(jìn)行重采樣,在保證很小信息損失的前提下有效地平衡了樣本偏斜狀態(tài),克服了傳統(tǒng)采樣方法存
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向開放域的中文問答系統(tǒng)問句處理相關(guān)技術(shù)研究.pdf
- 面向開放域的問答系統(tǒng)答案獲取技術(shù)研究與實現(xiàn).pdf
- 面向問答的社區(qū)型知識抽取技術(shù)研究.pdf
- 面向在線問答社區(qū)的問題檢索與答案抽取技術(shù)研究與實現(xiàn).pdf
- 開放域問答系統(tǒng)答案源獲取方法研究與實現(xiàn).pdf
- 面向問答社區(qū)的相關(guān)信息推薦技術(shù)研究.pdf
- 面向問答社區(qū)的高質(zhì)量答案抽取研究.pdf
- 面向問答系統(tǒng)的問題分類與答案抽取研究.pdf
- 面向開放域信息抽取的關(guān)系知識庫建立.pdf
- 中文口語交互式開放域問答系統(tǒng)關(guān)鍵技術(shù)研究.pdf
- 關(guān)鍵短語抽取及相關(guān)技術(shù)研究.pdf
- 關(guān)鍵短語抽取及相關(guān)技術(shù)研究
- 面向Mashup的WebAPI的抽取技術(shù)研究.pdf
- 基于非結(jié)構(gòu)化文檔的開放域自動問答系統(tǒng)技術(shù)研究.pdf
- 基于Internet的問答系統(tǒng)答案抽取方法研究與實現(xiàn).pdf
- 情感標(biāo)簽抽取相關(guān)技術(shù)研究.pdf
- 領(lǐng)域信息抽取相關(guān)技術(shù)研究.pdf
- 中文開放域關(guān)系抽取研究與實現(xiàn).pdf
- 開放域的自動問答系統(tǒng)的研究.pdf
- 面向問答系統(tǒng)的段落檢索技術(shù)研究.pdf
評論
0/150
提交評論