中文問(wèn)答系統(tǒng)中的句型理論及其應(yīng)用研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩145頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、自動(dòng)問(wèn)答系統(tǒng)(QA),是一種用自然語(yǔ)言提問(wèn),并由系統(tǒng)自主獲取知識(shí)并向用戶直接返回所需答案的一種新的信息檢索系統(tǒng)。問(wèn)答系統(tǒng)一般包括三個(gè)主要組成部分:問(wèn)題理解、信息檢索和答案抽取。
   目前QA已成為非常熱門的研究方向,其中以英文的QA系統(tǒng)居多,中文問(wèn)答系統(tǒng)這幾年也受到國(guó)內(nèi)外一些機(jī)構(gòu)的重視。中文QA系統(tǒng)的研究與英文等語(yǔ)種的QA系統(tǒng)相比,由于中文自身的特點(diǎn),使得中文QA系統(tǒng)在研究中有不少自身的特點(diǎn),有時(shí)完全不同于英文等語(yǔ)種的QA系統(tǒng)

2、,這也是中文QA系統(tǒng)研究的一個(gè)關(guān)鍵。
   自然語(yǔ)言處理技術(shù)是問(wèn)答系統(tǒng)的關(guān)鍵技術(shù),要提高問(wèn)答系統(tǒng)的水平,需要從與QA系統(tǒng)有關(guān)的自然語(yǔ)言處理技術(shù)著手,特別是如何準(zhǔn)確把握問(wèn)題和答案的語(yǔ)義。但目前,自然語(yǔ)言的語(yǔ)義分析技術(shù)還處于非常初級(jí)的階段,因此,多數(shù)的問(wèn)答系統(tǒng)都是回避語(yǔ)義分析或者只是基于淺層的語(yǔ)義分析去進(jìn)行研究,因此難以取得好的效果。如何在問(wèn)答系統(tǒng)中提高語(yǔ)義分析水平應(yīng)該是提高問(wèn)答系統(tǒng)水平的重要問(wèn)題。
   句子的語(yǔ)義主要包括

3、兩個(gè)部分:構(gòu)成句子的成份的詞義和由句子結(jié)構(gòu)確定的結(jié)構(gòu)語(yǔ)義。句型的研究是語(yǔ)言學(xué)中句法結(jié)構(gòu)層面研究中一個(gè)很重要的內(nèi)容。一種語(yǔ)言的句子是無(wú)限的,而句型是有限的,通過(guò)研究有限的句型來(lái)把握無(wú)限的句子是句型研究的主要目標(biāo)。屬于同種句型的句子通常在句法結(jié)構(gòu)、語(yǔ)義解釋等方面具有一定的一致性。因此,通過(guò)研究句型及每種句型的結(jié)構(gòu)語(yǔ)義,可以把整個(gè)語(yǔ)言中的句子根據(jù)句型分成若干個(gè)類型。對(duì)多數(shù)類型的句子而言,句子的結(jié)構(gòu)語(yǔ)義是由句型決定的,通過(guò)建立每種句型的句子的結(jié)

4、構(gòu)語(yǔ)義計(jì)算規(guī)則,再標(biāo)注出組成句子的詞語(yǔ)的詞義就能把握這些句子的語(yǔ)義??梢?jiàn),通過(guò)句型來(lái)實(shí)現(xiàn)對(duì)句子的語(yǔ)義分析,應(yīng)該是對(duì)多數(shù)句子進(jìn)行語(yǔ)義分析的一條可行的研究方法。對(duì)于自動(dòng)問(wèn)答系統(tǒng)而言,疑問(wèn)句的句型同疑問(wèn)語(yǔ)義之間的關(guān)系更為密切,通過(guò)分析提出問(wèn)題的疑問(wèn)句的句型,可以準(zhǔn)確地把握問(wèn)句的疑問(wèn)語(yǔ)義,進(jìn)而實(shí)現(xiàn)對(duì)問(wèn)句的理解;而預(yù)先根據(jù)問(wèn)題類型規(guī)劃出問(wèn)題答案的句型,則能夠更方便準(zhǔn)確地搜索和抽取出問(wèn)題的答案,并實(shí)現(xiàn)問(wèn)題的回答。
   本文在句型系統(tǒng)研究的

5、基礎(chǔ)上研究了一個(gè)基于開(kāi)放域的中文自動(dòng)問(wèn)答系統(tǒng)--虛擬信息顧問(wèn)系統(tǒng)(VIC),它要求用自然語(yǔ)言提出問(wèn)題,系統(tǒng)根據(jù)問(wèn)題自動(dòng)在網(wǎng)絡(luò)上或文檔集合中搜集相關(guān)資料,找出答案后回答用戶的提問(wèn)。主要工作包括:
   一、提出了句型系統(tǒng)的形式化理論和句型的語(yǔ)義計(jì)算方法。句型系統(tǒng)的形式化理論包括句型的形式化定義、句型描述、句型語(yǔ)義計(jì)算等內(nèi)容。句型的形式化定義在前人對(duì)句型系統(tǒng)的研究和以及對(duì)句法結(jié)構(gòu)研究的基礎(chǔ)上,以句法同構(gòu)為句型的分類標(biāo)準(zhǔn),用生成語(yǔ)法的

6、方式形式化地定義了句型概念。句型的描述則包括由形式化定義直接得到的推導(dǎo)描述、與自然語(yǔ)言學(xué)界中旬型/句式描述類似的字符串描述、以及向量描述。句型語(yǔ)義計(jì)算的方法以句型向量中的成分為變量,根據(jù)句型的結(jié)構(gòu)語(yǔ)義寫出句型向量中的成分的格角色,在句子語(yǔ)義計(jì)算時(shí),根據(jù)句子所屬句型及句型語(yǔ)義就能標(biāo)注出句子成分在句子中的格角色。
   二、提出了一種基于向量空間模型(VSM)的句型識(shí)別方法?;谙蛄靠臻g模型(VSM)的句型識(shí)別方法通過(guò)計(jì)算句子與句型

7、的相似度束排序并實(shí)現(xiàn)對(duì)句子句型的識(shí)別,即通過(guò)計(jì)算漢語(yǔ)句子中的特征詞、短語(yǔ)和詞的詞性、以及句子中的語(yǔ)序關(guān)系,來(lái)實(shí)現(xiàn)對(duì)漢語(yǔ)句子句型的識(shí)別。該方法先以句型向量為模板對(duì)句子結(jié)構(gòu)進(jìn)行規(guī)約,得到基于句型模式的句型結(jié)構(gòu),然后將得到的句型結(jié)構(gòu)表示成向量形式,并與句型向量進(jìn)行相似度計(jì)算,并將一個(gè)句型層次的所有句型模式與句子的相似度進(jìn)行排序,從而實(shí)現(xiàn)對(duì)句子的句型的識(shí)別。文章以疑問(wèn)句的句型識(shí)別方法為例對(duì)句型識(shí)別進(jìn)行了測(cè)試,測(cè)試結(jié)果標(biāo)明,在句法分析正確的情況下

8、該句型識(shí)別方法的正確率很高,即使對(duì)句法分析錯(cuò)誤的句子,也能正確識(shí)別其中一部分句子的句型,說(shuō)明這種識(shí)別技術(shù)具有較好的識(shí)別效果和較好的穩(wěn)定性能。
   三、提出了基于句型系統(tǒng)的問(wèn)題理解方法及基于問(wèn)題句型系統(tǒng)的中文問(wèn)答系統(tǒng)架構(gòu)。句型是句子的句法結(jié)構(gòu)分類,而問(wèn)題分類是對(duì)問(wèn)題的疑問(wèn)語(yǔ)義分類,對(duì)于疑問(wèn)句而言,句型與疑問(wèn)語(yǔ)義緊密相關(guān),通過(guò)句型聯(lián)系問(wèn)題的語(yǔ)義分類進(jìn)而實(shí)現(xiàn)對(duì)問(wèn)題的分類是本文問(wèn)題理解的主要方法。文章通過(guò)對(duì)疑問(wèn)句短語(yǔ)分類、建立問(wèn)題分類

9、標(biāo)準(zhǔn)和分類規(guī)則,并進(jìn)而通過(guò)句型實(shí)現(xiàn)對(duì)疑問(wèn)句的語(yǔ)義計(jì)算,再根據(jù)疑問(wèn)語(yǔ)義得到問(wèn)題的標(biāo)準(zhǔn)形,最后利用疑問(wèn)句的句型識(shí)別技術(shù)實(shí)現(xiàn)了問(wèn)題的分類和理解。漢語(yǔ)中疑問(wèn)詞的非疑問(wèn)現(xiàn)象是一種常見(jiàn)的語(yǔ)法現(xiàn)象,通過(guò)對(duì)漢語(yǔ)中疑問(wèn)詞的非疑問(wèn)用法的研究和非疑問(wèn)用法的句型識(shí)別,達(dá)到了提高對(duì)問(wèn)題分類和理解的水平的目的。
   四、針對(duì)自動(dòng)問(wèn)答系統(tǒng)中信息檢索的特點(diǎn)和要求,提出了結(jié)合自然文檔的結(jié)構(gòu),以文檔段序、句序和詞序?yàn)榛A(chǔ)的改進(jìn)向量空間模型(VSM)檢索算法。并設(shè)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論