版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、近年來(lái),隨著Web技術(shù)的發(fā)展,開(kāi)發(fā)能夠滿足用戶對(duì)不相關(guān)信息的快速訪問(wèn)服務(wù)成為了一種重要應(yīng)用。問(wèn)答服務(wù)就是這樣一種服務(wù),其目標(biāo)是面向某個(gè)具體問(wèn)題提供答案。在過(guò)去的十年中,受TREC(文本檢索會(huì)議)的自動(dòng)問(wèn)答論壇影響,開(kāi)發(fā)了許多自動(dòng)問(wèn)答系統(tǒng)。自動(dòng)問(wèn)答技術(shù)涉及到很多NLP(自然語(yǔ)言處理技術(shù)),如信息檢索(IR),信息抽取(IE),自動(dòng)摘要,會(huì)話界面等。目前的自動(dòng)問(wèn)答系統(tǒng)可以分為兩類(lèi):開(kāi)放域自動(dòng)問(wèn)答系統(tǒng)和受限域自動(dòng)問(wèn)答系統(tǒng)。開(kāi)放域自動(dòng)問(wèn)答系統(tǒng)面
2、向幾乎所有問(wèn)題的解答,主要依靠通用本體和知識(shí)庫(kù)技術(shù)。同時(shí),在開(kāi)放域問(wèn)答系統(tǒng)中問(wèn)題的類(lèi)型是不固定的。受限域自動(dòng)問(wèn)答系統(tǒng)主要處理特定領(lǐng)域的問(wèn)題(如生物醫(yī)藥或天氣預(yù)報(bào)),由于自然語(yǔ)言處理中可以經(jīng)常利用領(lǐng)域知識(shí)構(gòu)建本體,從而受限域自動(dòng)問(wèn)答系統(tǒng)相對(duì)簡(jiǎn)單。同時(shí),在受限域自動(dòng)問(wèn)答系統(tǒng)中所接受的問(wèn)題類(lèi)型也是有限的。
本文的目標(biāo)是設(shè)計(jì)并實(shí)現(xiàn)SieQA自動(dòng)問(wèn)答系統(tǒng),該系統(tǒng)為一個(gè)面向東北大學(xué)國(guó)際交流學(xué)院的受限域自動(dòng)問(wèn)答系統(tǒng)。為此,本文首先研究了自動(dòng)
3、問(wèn)答系統(tǒng)的-般處理過(guò)程:
首先,分析自然語(yǔ)言問(wèn)題,給出關(guān)鍵字以及問(wèn)題域;
然后,使用關(guān)鍵字和問(wèn)題域,對(duì)問(wèn)題進(jìn)行分類(lèi);
接下來(lái),根據(jù)問(wèn)題分類(lèi),縮減相似的候選問(wèn)題數(shù)量;
然后,計(jì)算問(wèn)題與候選問(wèn)題間的相似度;
最后,根據(jù)相似度得到問(wèn)題答案,如果沒(méi)有找到問(wèn)題答案則記錄該問(wèn)題,并將該問(wèn)題轉(zhuǎn)給人工解決。
這樣,該過(guò)程中,需要解決以下問(wèn)題:
(1)問(wèn)題分析,通過(guò)識(shí)別問(wèn)題中的單詞并標(biāo)
4、注語(yǔ)義,以對(duì)問(wèn)題進(jìn)行分類(lèi)以理解問(wèn)題目標(biāo);
(2)問(wèn)題選擇,通過(guò)相似度計(jì)算,在大量的候選問(wèn)題中選擇合適的問(wèn)題及答案,以實(shí)現(xiàn)自動(dòng)問(wèn)題解答。
在問(wèn)題分析中,其關(guān)鍵是要理解問(wèn)題目標(biāo)。為了識(shí)別問(wèn)題目標(biāo),需要進(jìn)行形態(tài)句法分析,以識(shí)別單詞是動(dòng)詞、名詞或者形容詞等,并對(duì)單詞進(jìn)行標(biāo)注。通過(guò)形態(tài)句法分析,將幫助確定問(wèn)題關(guān)注于哪類(lèi)事務(wù)。在此基礎(chǔ)上,為了識(shí)別問(wèn)題所關(guān)注的對(duì)象,還需要識(shí)別問(wèn)題的語(yǔ)義以確定該問(wèn)題是哪類(lèi)問(wèn)題。問(wèn)題分類(lèi)是要將問(wèn)題歸為
5、幾個(gè)語(yǔ)義類(lèi)別。這些分類(lèi)是事先定義的,依賴于問(wèn)題關(guān)鍵字進(jìn)行判斷,比如when關(guān)注于時(shí)間或者日期,where關(guān)注于地點(diǎn),who關(guān)注于人。利潤(rùn),如果問(wèn)題是“Who was the first Chinese in space?”,該問(wèn)題將期待一個(gè)人名的答案。事實(shí)上,所有的問(wèn)答系統(tǒng)都有一個(gè)問(wèn)題分類(lèi)模塊。問(wèn)題分類(lèi)的準(zhǔn)確性對(duì)于自動(dòng)問(wèn)答系統(tǒng)的性能是非常重要的。然而,對(duì)于一些英語(yǔ)單詞,如which,并沒(méi)有過(guò)多的帶有其他語(yǔ)義類(lèi)型信息。這樣,就需要進(jìn)一步分
6、析識(shí)別問(wèn)題關(guān)鍵字。這樣,本文構(gòu)建了一個(gè)問(wèn)題類(lèi)型表,它是一個(gè)層次結(jié)構(gòu)。
問(wèn)題選擇是要在大量的候選問(wèn)題中選擇合適的問(wèn)題及答案。這樣就需要度量?jī)蓚€(gè)問(wèn)題語(yǔ)句的相似度。該相似度計(jì)算應(yīng)考慮語(yǔ)法和語(yǔ)義相似兩個(gè)方面。語(yǔ)句間相似性度量步驟如下:
(1)標(biāo)記化,將句子分為一系列單詞;
(2)執(zhí)行詞性標(biāo)注,對(duì)單詞進(jìn)行名動(dòng)詞識(shí)別,利用Brill標(biāo)記算法進(jìn)行基于規(guī)則的標(biāo)注;
(3)詞義消歧,有些單詞有多個(gè)語(yǔ)義,利用WSD(
7、Word Sense Disambiguation)來(lái)消除歧義;
(4)詞義相似性度量,根據(jù)wordnet,利用路徑長(zhǎng)度,如公式WUP(s1,s2)=2*depth(LCS)/depth(s1)+depth(s2)所示,計(jì)算詞義相似性。其中s1和s2表示源和目的詞,depth表示計(jì)算節(jié)點(diǎn)到根距離的函數(shù)。LCS表示s1和s2間最小相同部分。
(5)語(yǔ)義相似度矩陣構(gòu)建,語(yǔ)義相似度矩陣R[m,n]中每個(gè)表示X的位置為i的詞
8、與Y的位置為j的詞之間的相似度。
(6)語(yǔ)句相似度計(jì)算。根據(jù)句子間的語(yǔ)義相似矩陣,利用Dice相關(guān)系數(shù)計(jì)算得到兩個(gè)句子的語(yǔ)義相似度,如公式v=2*|X∩Y|/|X|+|Y|所示。
這樣,根據(jù)以上描述,兩個(gè)語(yǔ)句X和Y的相似性計(jì)算算法如下:Sum=0;Threshold=0.5;for(int i=0;i<|X|;i++){max=-1;for(intj=0;j<|Y|;j++){if(R[i,j]>max)max=R[
9、i,j];}If(max>=Threshold){Sum+=max;}}Sim=2*Sum/(|X|+|Y|);
在此基礎(chǔ)上,本文描述了自動(dòng)問(wèn)答系統(tǒng)的功能分析。自動(dòng)問(wèn)答系統(tǒng)由兩部分構(gòu)成:客戶App和管理端Web應(yīng)用。
客戶App的功能是要提供一個(gè)界面以使得用戶能夠提問(wèn)、獲取答案并瀏覽提問(wèn)歷史記錄??蛻鬉pp可以分為以下功能模塊:
(1)注冊(cè)模塊:主要是提供新用戶的注冊(cè);
(2)登錄模塊:主要是使得
10、用戶能夠提供用戶名和密碼之后登錄系統(tǒng);
(3)個(gè)人資料設(shè)置模塊:主要是使得用戶可以修改個(gè)人資料信息;
(4)提問(wèn)模塊,在用戶登錄該系統(tǒng)之后,可以提問(wèn);
(5)瀏覽歷史記錄模塊:用戶可以瀏覽歷史提問(wèn)信息。
管理端Web應(yīng)用主要是提供管理員編輯問(wèn)題類(lèi)別、管理問(wèn)題以及回答未正確處理問(wèn)題和用戶提問(wèn)歷史統(tǒng)計(jì)分析等功能。管理端Web可以分為以下功能模塊:
(1)登錄模塊:主要是使得用戶能夠提供用戶名
11、和密碼之后登錄系統(tǒng);
(2)個(gè)人資料設(shè)置模塊:主要是使得用戶可以修改個(gè)人資料信息;
(3)用戶管理模塊:主要對(duì)注冊(cè)用戶進(jìn)行權(quán)限管理及用戶信息維護(hù)等;
(4)問(wèn)題域管理模塊:主要是使得用戶能夠修改編輯問(wèn)題域;
(5)問(wèn)題管理模塊:主要是使得用戶能夠修改編輯刪除問(wèn)題;
(6)未正確處理問(wèn)題解答模塊:主要是使得用戶能夠?qū)ο到y(tǒng)未正確處理問(wèn)題提供解答。
(7)查看統(tǒng)計(jì)信息模塊:主要是使得
12、用戶能夠查看問(wèn)題回答情況。
在系統(tǒng)分析的基礎(chǔ)上,本文描述了系統(tǒng)的體系結(jié)構(gòu)設(shè)計(jì)和邏輯結(jié)構(gòu)設(shè)計(jì),并給出了關(guān)鍵功能模塊設(shè)計(jì)和數(shù)據(jù)庫(kù)設(shè)計(jì)。其中客戶App包括3層:顯示層、交互層和服務(wù)器層。其中,顯示層是android聊天應(yīng)用,用于以圖形界面方式提供系統(tǒng)登錄、提問(wèn)、獲取答案以及瀏覽歷史問(wèn)答記錄等功能。交互層主要負(fù)責(zé)通過(guò)socket端口接收和發(fā)送消息。服務(wù)器層為遠(yuǎn)程服務(wù)器,用以與顯示層間發(fā)送接收消息。管理端Web應(yīng)用采用顯示層、Web應(yīng)用
13、層和數(shù)據(jù)層的3層體系結(jié)構(gòu)。其中,顯示層是通過(guò)不同的Web界面提供用戶登錄、問(wèn)題域管理、用戶角色管理和未解答問(wèn)題角色指派等功能。同時(shí),它也提供系統(tǒng)統(tǒng)計(jì)功能。該層同時(shí)也提供用戶請(qǐng)求的處理、問(wèn)題自動(dòng)響應(yīng)以及失敗情況下的通知發(fā)送功能。Web應(yīng)用層由Wicket,spring,hibernate和JPA技術(shù)開(kāi)發(fā)。數(shù)據(jù)層主要存儲(chǔ)系統(tǒng)中的數(shù)據(jù),如用戶信息、問(wèn)題信息和角色權(quán)限信息等。為了支持系統(tǒng)功能,通過(guò)實(shí)體類(lèi)分析和數(shù)據(jù)庫(kù)表關(guān)系分析,本系統(tǒng)主要構(gòu)建了1
14、4張數(shù)據(jù)庫(kù)表,包括:用戶信息表、角色表、用戶角色表、權(quán)限表、角色權(quán)限表、問(wèn)題域表、問(wèn)題子域表、問(wèn)題表、答案表、問(wèn)題類(lèi)別表、用戶問(wèn)題表、用戶答案表、未回答問(wèn)題表。
在系統(tǒng)設(shè)計(jì)的基礎(chǔ)上,給出了本文的關(guān)鍵功能模塊實(shí)現(xiàn),詳細(xì)說(shuō)明了系統(tǒng)開(kāi)發(fā)環(huán)境,并討論了問(wèn)題分析、分類(lèi)以及相似度計(jì)算的實(shí)現(xiàn)原理和代碼。同時(shí),給出了客戶App的提問(wèn)和登錄模塊的實(shí)現(xiàn)原理及界面,給出了管理端Web應(yīng)用的登錄、查看統(tǒng)計(jì)信息和問(wèn)題管理模塊的實(shí)現(xiàn)原理及界面。
15、 本文開(kāi)展了一系列的實(shí)驗(yàn)對(duì)答案獲取進(jìn)行了測(cè)試。實(shí)驗(yàn)結(jié)果驗(yàn)證了其準(zhǔn)確性。同時(shí),對(duì)系統(tǒng)中關(guān)鍵功能模塊進(jìn)行了系統(tǒng)測(cè)試。測(cè)試結(jié)果表明,該系統(tǒng)能夠幫助東北大學(xué)國(guó)際交流學(xué)院實(shí)現(xiàn)留學(xué)相關(guān)問(wèn)題的自動(dòng)解答。
最后,本文總結(jié)了論文的主要工作。本文主要設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)自動(dòng)問(wèn)答系統(tǒng)。該系統(tǒng)中利用語(yǔ)句分析、分類(lèi)和相似度計(jì)算技術(shù),從數(shù)據(jù)庫(kù)(包括問(wèn)題和答案的數(shù)據(jù)庫(kù))中獲取答案。論文中給出了受限域自動(dòng)問(wèn)答方法的整體結(jié)構(gòu)和處理過(guò)程。基于自動(dòng)問(wèn)答方法以及國(guó)際交流
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- Design and Implementation of Inventory Control System.pdf
- Design and Implementation of an Online Bookstore System.pdf
- Design and Implementation of a Secure Online Banking System.pdf
- Design and Implementation of an Online Digital Library System.pdf
- Design and Implementation of School Bus Tracking System.pdf
- Design and Implementation of an English Spell and Grammar Checking System.pdf
- Design and Implementation of A Multi-Tier Application Architecture:Hotel Booking System.pdf
- Design and Implementation of a Multi-Tier Application Architecture- Hotel Booking System.pdf
- Research and Implementation of an Online Bus and Reservation System.pdf
- Design and Simulation of the Solar Tracking System.pdf
- the design of automatic temperature control system for the dyeing machine
- The Design of Automatic Temperature Control System for the Dyeing Machine .pdf
- The Design of Automatic Temperature Control System for the Dyeing Machine .pdf
- design and implementation of project management system based on php
- The Design and Implementation of Storage System for MiniSys-1A.pdf
- design and implementation of the theater’s multiple management system
- research on design and implementation of instructional objective writing system
- Design of computerized system for harmonics detection,analysis and control in power system.pdf
- A Hybrid Automatic Repeat Request with Turbo Codes in OFDM System.pdf
- Research and Implementation of Android-based Location Sharing System.pdf
評(píng)論
0/150
提交評(píng)論