版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基于句法結(jié)構(gòu)特征分析及分類技術(shù)的答案提取算法?胡寶順1王大玲2于戈2馬婷21(東北大學(xué)軟件學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)遼寧省沈陽市110004)2(東北大學(xué)信息科學(xué)與工程學(xué)院計(jì)算機(jī)軟件與理論研究所遼寧省沈陽市110004)摘要:由于中文自然語言處理的特點(diǎn)和困難,以及相應(yīng)的語言處理基礎(chǔ)資源的相對缺乏,使得國外一些成熟技術(shù)和研究成果不能直接應(yīng)用到中文問答系統(tǒng)中。為此,針對中文事實(shí)型問答系統(tǒng),提出一種新的基于句法結(jié)構(gòu)特征分析及分類技術(shù)的答案提取算
2、法,該方法將答案提取問題看成是候選答案的分類問題,即將候選答案分類為正確和錯(cuò)誤兩類。首先,該方法根據(jù)與問題類型所對應(yīng)的候選答案的類型信息,從文本片斷中提取出候選答案及其在句子中的簡單特征和句法結(jié)構(gòu)特征;然后利用這些特征訓(xùn)練分類器;最后用訓(xùn)練得到的分類器判別候選答案是否為正確答案。針對中文事實(shí)性問題,該方法與目前典型的基于模式匹配的中文答案提取算法相比,準(zhǔn)確率提升6.2%,MRR提升9.7%。關(guān)鍵詞:句法依存分析分類答案提取中文問答系統(tǒng)事
3、實(shí)性問題中圖法分類號TP3911引言和國內(nèi)外研究現(xiàn)狀隨著互聯(lián)網(wǎng)的普及,搜索引擎已經(jīng)成為人們快速查找信息和資源的重要手段。但目前的搜索引擎主要采用基于關(guān)鍵字的查詢,而關(guān)鍵字的簡單組合不能明確表述用戶的查詢意圖,這一問題已成為制約搜索引擎性能提高的瓶頸之一。問答式檢索系統(tǒng)(簡稱問答系統(tǒng))正是為克服傳統(tǒng)搜索引擎的這一弊端應(yīng)運(yùn)而生的。與基于關(guān)鍵字的傳統(tǒng)搜索引擎不同,問答系統(tǒng)允許用戶以自然語言形式提問,并將準(zhǔn)確簡短的答案、而非大量的相關(guān)文本和網(wǎng)頁
4、返回給用戶。比如:用戶提問“第三屆亞洲政黨國際會(huì)議是由哪個(gè)政黨主辦的?”,問答系統(tǒng)就可以將“中國共產(chǎn)黨”的答案返回給用戶。因此可以說,問答系統(tǒng)是更高效、更人性化的新一代搜索引擎。同時(shí)也是集自然語言處理、信息檢索、信息抽取、機(jī)器學(xué)習(xí)等多學(xué)科技術(shù)于一體的復(fù)雜系統(tǒng)。一般來說,問答系統(tǒng)主要包括問題分析、信息檢索和答案提取三個(gè)部分。其中,問題分析的主要工作包括確定問題類型和提取問題中的關(guān)鍵字等;信息檢索部分的任務(wù)是利用問題關(guān)鍵字生成查詢條件,然后
5、利用文檔庫或提交給Web搜索引擎進(jìn)行檢索,返回相關(guān)的文檔或段落;答案提取部分的任務(wù)則是從候選的文檔或段落中提取出正確答案。作為問答系統(tǒng)中一個(gè)關(guān)鍵環(huán)節(jié),答案提取部分性能的優(yōu)劣直接影響整個(gè)問答系統(tǒng)的性能。DanMoldovan[1]等人關(guān)于問答系統(tǒng)錯(cuò)誤的分析結(jié)果表明,約18.7%的回答錯(cuò)誤是由諸如候選答案識別錯(cuò)誤、答案排序錯(cuò)誤等導(dǎo)致的。因此,答案提取算法的研究對提高問答系統(tǒng)整體性能具有重要的意義。近幾年來,國外很多科研院所和著名公司如IBM
6、、Microsoft、ISI、MIT、UniversityOfCambridge等都積極投入到問答技術(shù)的研究中,多個(gè)問答系統(tǒng)評測平臺如TREC、NTCIR、CLEF的成功舉辦也極大的推動(dòng)了該領(lǐng)域的快速發(fā)展。目前,國外已經(jīng)有一些相對成熟的問答系統(tǒng)問世,同時(shí)也不乏研究人員提出了很多效果理想的答案提取算法。同時(shí)近些年,國內(nèi)從事問答系統(tǒng)相關(guān)研究的機(jī)構(gòu)不斷增加,其中中國科學(xué)院自動(dòng)化研究所、哈爾?本課題得到國家自然科學(xué)基金(60573090)資助.
7、作者簡介:胡寶順男1981年生碩士研究生主要研究領(lǐng)域?yàn)樾畔z索技術(shù)王大玲女1962年生博士教授主要研究領(lǐng)域?yàn)樗阉饕婕夹g(shù)于戈男1962年生博士博士生導(dǎo)師主要研究領(lǐng)域?yàn)閿?shù)據(jù)庫及相關(guān)技術(shù)馬婷女1981年生碩士研究生主要研究領(lǐng)域?yàn)槲谋就诰蚣夹g(shù).聯(lián)系人:王大玲電話:862483687776Email:.胡寶順等:基于句法結(jié)構(gòu)特征分析及分類技術(shù)的答案提取算法33基于分類技術(shù)的答案提取算法因?yàn)楸疚牡闹攸c(diǎn)是答案提取算法,問題分析和信息檢索非本文的重點(diǎn)
8、,所以我們將問題類型信息視為已知信息。對于信息檢索模塊,我們簡單地使用Google搜索引擎檢索得到的文本片斷(snippet)作為答案提取的來源。3.1生成查詢詞生成查詢詞是文本片斷檢索的基礎(chǔ)。我們借鑒了文獻(xiàn)[7]中系統(tǒng)的查詢詞生成算法并加以改進(jìn),具體算法如下:(1)根據(jù)問題集,生成一個(gè)疑問詞列表。疑問詞為形如:“誰”、“哪”、“什么”等等的詞;(2)對問題進(jìn)行分詞和詞性標(biāo)注,將問題中出現(xiàn)的疑問詞及其后面的量詞或數(shù)量詞均作為疑問詞剔除;
9、如:“哪一年”這樣的由疑問詞和數(shù)量詞構(gòu)成的詞將作為疑問詞被剔除;(3)去除停用詞。如:“的”、“在”、“于”等等。同時(shí)去除介詞、助詞和標(biāo)點(diǎn)符號;(4)將剩余的詞作為關(guān)鍵詞,構(gòu)成查詢條件(關(guān)鍵詞之間簡單地以空格分隔,構(gòu)成一個(gè)“布爾或”查詢)。3.2訓(xùn)練分類器訓(xùn)練分類器的目的在于:找出候選答案所在的句子的特征與候選答案是否為正確答案的一種潛在的映射關(guān)系,是實(shí)現(xiàn)候選答案分類的基礎(chǔ),具體實(shí)現(xiàn)步驟如下:(1)將上面生成的查詢條件提交給Google
10、搜索引擎,保存檢索返回的前100個(gè)文本片斷;(2)根據(jù)問題的類型,利用命名實(shí)體(人名、地名、機(jī)構(gòu)名、時(shí)間詞、數(shù)量詞)識別技術(shù),識別出與問題類型對應(yīng)的命名實(shí)體作為候選答案,然后計(jì)算候選答案在所在句子中的各個(gè)特征值,最后根據(jù)問題對應(yīng)的標(biāo)準(zhǔn)答案,給候選答案加上類別標(biāo)簽(0:候選答案為非正確答案;1:候選答案為正確答案);(3)重復(fù)執(zhí)行上面兩個(gè)步驟,得到候選答案訓(xùn)練樣本集,從而可以利用相應(yīng)的分類器訓(xùn)練算法,訓(xùn)練得到用于分類的分類模型。3.3答案
11、提取答案提取是我們最后的目標(biāo),具體步驟如下:(1)將問題查詢詞提交給搜索引擎,取得搜索引擎返回的前30個(gè)文本片斷;(2)根據(jù)問題類型,識別出每個(gè)文本片斷中的候選答案,并計(jì)算候選答案所在句子的各特征值;(3)利用訓(xùn)練好的分類器,預(yù)測各個(gè)候選答案的分類,并返回前5個(gè)結(jié)果。4基于句法依存分析的路徑相似度計(jì)算本節(jié)詳細(xì)闡述提取句子句法特征時(shí)所要使用的關(guān)鍵技術(shù):基于句法依存分析的路徑相似度計(jì)算。4.1句法依存分析句法分析(parsing)是自然語言
12、處理領(lǐng)域研究的關(guān)鍵問題之一,屬于淺層語義分析中的重要內(nèi)容,在機(jī)器翻譯、信息抽取和自動(dòng)問答等多個(gè)領(lǐng)域中有著廣泛而重要的應(yīng)用,而基于依存語法的句法分析(簡稱句法依存分析)是目前句法分析的主要方法之一。依存語法是1959年由法國語言學(xué)家L.Tesiniere在其著作《結(jié)構(gòu)句法基礎(chǔ)》一書中提出的。此語法的核心思想是:句子中述語動(dòng)詞是支配其它成分的中心,而它本身卻不受其它任何成分的支配,所有的受支配成分都以某種依存關(guān)系從屬于其支配者。依存語法的句
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人臉特征提取及分類算法研究.pdf
- 小波分析提取JEM特征及GA-BP分類算法.pdf
- 基于局部特征提取的場景分類算法研究.pdf
- 基于樹形結(jié)構(gòu)的產(chǎn)品特征提取算法.pdf
- 圖像紋理特征提取及分類算法研究.pdf
- 交通標(biāo)志特征提取及分類算法研究.pdf
- 基于結(jié)構(gòu)特征的Web services分類算法研究.pdf
- 特征提取及分類算法在膜蛋白分類預(yù)測問題中的應(yīng)用.pdf
- 基于特征提取和分類算法的微電網(wǎng)孤島檢測模型
- KNN文本分類中基于遺傳算法的特征提取技術(shù)研究.pdf
- 圖象特征提取及分類識別的算法研究.pdf
- 圖像紋理特征提取及分類算法研究碩士論文
- 17597.基于新型特征提取算法的蛋白質(zhì)分類研究
- 基于特征提取和分類算法的微電網(wǎng)孤島檢測模型.pdf
- 國畫特征提取與分類算法的研究.pdf
- 多種特征模板的依存句法分析算法.pdf
- 人體視覺分析中特征提取與分類算法的研究.pdf
- 基于句法分析的醫(yī)學(xué)指南事件及事件關(guān)系提取.pdf
- 基于非線性特征提取的心電節(jié)拍分類算法研究.pdf
- 基于圖像的嘴唇特征提取及口型分類研究.pdf
評論
0/150
提交評論