面向開放領(lǐng)域文本的實(shí)體關(guān)系抽取.pdf_第1頁(yè)
已閱讀1頁(yè),還剩114頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著大數(shù)據(jù)時(shí)代的來(lái)臨,人們面臨和需要處理的數(shù)據(jù)在規(guī)模上急劇膨脹,而大部分?jǐn)?shù)據(jù)以自然語(yǔ)言描述的無(wú)結(jié)構(gòu)文本格式存在,其內(nèi)容所屬領(lǐng)域的界限也日趨模糊,一些有重要意義和價(jià)值的知識(shí)信息顯式或隱式地散落在這些海量的文字中間,從而影響了人們直觀、高效地從中發(fā)現(xiàn)目標(biāo)信息。作為信息抽取的一項(xiàng)重要任務(wù),實(shí)體關(guān)系抽取研究的根本目標(biāo)就是利用語(yǔ)言學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、信息科學(xué)等多個(gè)領(lǐng)域的知識(shí),從無(wú)結(jié)構(gòu)或半結(jié)構(gòu)的文本中發(fā)現(xiàn)實(shí)體之間存在的各類語(yǔ)義關(guān)系,并以結(jié)構(gòu)化的

2、方式呈現(xiàn)出來(lái),以便于人們快速理解和掌握文本的意義。面向開放領(lǐng)域文本的關(guān)系抽取面臨著諸多困難與挑戰(zhàn),而該項(xiàng)研究對(duì)于事件抽取、信息檢索、機(jī)器翻譯、自動(dòng)問(wèn)答等領(lǐng)域的研究具有較強(qiáng)的支撐作用,因而具有較強(qiáng)的研究?jī)r(jià)值與研究意義。
  針對(duì)開放領(lǐng)域文本的特點(diǎn),在總結(jié)現(xiàn)有實(shí)體關(guān)系抽取研究的基礎(chǔ)上,本文從實(shí)體關(guān)系特征選擇和實(shí)體關(guān)系抽取方法兩個(gè)角度進(jìn)行了面向開放領(lǐng)域文本的實(shí)體關(guān)系抽取研究,并將這些研究成果應(yīng)用于面向大學(xué)計(jì)算機(jī)基礎(chǔ)課程的知識(shí)圖譜的構(gòu)建研

3、究中。本文的主要研究?jī)?nèi)容包括以下四個(gè)方面:
  (1)基于句法語(yǔ)義特征的實(shí)體關(guān)系抽取。領(lǐng)域無(wú)關(guān)的新聞文本是一種較為常見(jiàn)的開放領(lǐng)域文本,現(xiàn)有的研究偏重于核函數(shù)及其組合的在關(guān)系抽取中的應(yīng)用,而在關(guān)系特征方面的研究相對(duì)偏少,而且以往的研究大多是利用外部的語(yǔ)義知識(shí)庫(kù)作為輔助來(lái)實(shí)現(xiàn),較少?gòu)年P(guān)系結(jié)構(gòu)自身所處的句子中提取語(yǔ)義特征,也缺少?gòu)恼Z(yǔ)言學(xué)的角度來(lái)挖掘關(guān)系特征。為此,本文提出一種基于句法語(yǔ)義特征的實(shí)體關(guān)系抽取方法,在特征選擇方面,著重從語(yǔ)言

4、學(xué)的角度出發(fā),以詞法分析、上下文環(huán)境等特征為基礎(chǔ),新添加了依存句法特征、語(yǔ)義角色標(biāo)注特征以及核心謂詞與實(shí)體的位置距離特征等,實(shí)現(xiàn)關(guān)系特征選擇范圍的擴(kuò)展;在機(jī)器學(xué)習(xí)方法上,以SVM模型為基礎(chǔ),構(gòu)建基于特征空間轉(zhuǎn)換的訓(xùn)練模型,并采用成熟的算法對(duì)訓(xùn)練過(guò)程進(jìn)行優(yōu)化;最后使用《人民日?qǐng)?bào)》部分語(yǔ)料進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了本文所述方法的有效性。
  (2)基于弱監(jiān)督的實(shí)體關(guān)系抽取。百科類文本是另一種典型的開放領(lǐng)域文本,可根據(jù)其自有內(nèi)容實(shí)現(xiàn)基于

5、弱監(jiān)督機(jī)器學(xué)習(xí)的關(guān)系抽取,從而減少人工干預(yù)、提高效率。以往針對(duì)中文百科文本的屬性抽取研究較多,而實(shí)體關(guān)系抽取的研究相對(duì)較少,且在目標(biāo)關(guān)系類型選擇過(guò)程中存在缺陷。為此,本文提出一種基于弱監(jiān)督的百科文本實(shí)體關(guān)系抽取方法,在監(jiān)督知識(shí)庫(kù)的構(gòu)建環(huán)節(jié),不再直接依賴基本信息框中的數(shù)據(jù),而是從多個(gè)角度對(duì)基本信息框中的內(nèi)容進(jìn)行加工整合,得到質(zhì)量更高的關(guān)系元組,用于對(duì)詞條正文進(jìn)行自動(dòng)關(guān)系標(biāo)注;在目標(biāo)關(guān)系類型選擇中,提出了一種基于頻度差值密度的目標(biāo)關(guān)系類型選

6、擇方法,使其夠按照每種關(guān)系類型在語(yǔ)料中的分布密度隨機(jī)從一定范圍內(nèi)選擇目標(biāo)關(guān)系類型,從而提高目標(biāo)關(guān)系類型選擇的覆蓋面和科學(xué)性;本方法繼承了上一研究?jī)?nèi)容中的關(guān)系特征選擇、特征向量?jī)?yōu)化方法和關(guān)系分類訓(xùn)練模型,并使用百度百科部分詞條作為語(yǔ)料進(jìn)行了實(shí)驗(yàn),得到了較好的實(shí)驗(yàn)效果。
  (3)基于字典構(gòu)建與規(guī)則學(xué)習(xí)的實(shí)體關(guān)系抽取。該項(xiàng)研究主要實(shí)現(xiàn)從期刊文本中進(jìn)行特定類型的術(shù)語(yǔ)之間的關(guān)系抽取。在基于規(guī)則的實(shí)體關(guān)系抽取研究中,利用關(guān)系字典能夠明顯地提

7、升關(guān)系識(shí)別效果,而在以往研究中,關(guān)系規(guī)則與關(guān)系字典往往由人工構(gòu)建,效率較低。本文提出一種基于弱監(jiān)督的關(guān)系詞字典自動(dòng)構(gòu)建方法,首先設(shè)計(jì)一種全新的關(guān)系詞字典結(jié)構(gòu),在人工挑選部分典型關(guān)系詞的基礎(chǔ)上,通過(guò)基于CRF模型的弱監(jiān)督機(jī)器學(xué)習(xí)得到關(guān)系詞識(shí)別器,最終實(shí)現(xiàn)關(guān)系詞字典的自動(dòng)構(gòu)建;在關(guān)系規(guī)則的自動(dòng)生成方面,利用上述關(guān)系詞字典,首先根據(jù)關(guān)系詞與實(shí)體的相對(duì)位置關(guān)系設(shè)計(jì)關(guān)系模式,然后從大量的訓(xùn)練文本中抽取填充因子填充到關(guān)系模式中,從而自動(dòng)得到關(guān)系規(guī)則

8、;此外,本文還提出了無(wú)明顯關(guān)系詞的實(shí)體關(guān)系抽取方法以及規(guī)則修剪方法等。在實(shí)驗(yàn)中,將本方法應(yīng)用于生物醫(yī)學(xué)期刊文獻(xiàn)中的蛋白質(zhì)交互(PPI)關(guān)系抽取,取得了較好的效果。
  (4)面向大學(xué)計(jì)算機(jī)基礎(chǔ)課程的知識(shí)圖譜構(gòu)建研究。面向大學(xué)計(jì)算機(jī)基礎(chǔ)課程的知識(shí)圖譜構(gòu)建,可以為該課程的教學(xué)改革、學(xué)習(xí)方法的改進(jìn)等提供豐富的知識(shí)保障,從而有助于提升教育信息化水平。本文以大學(xué)計(jì)算機(jī)基礎(chǔ)課程的教材為知識(shí)語(yǔ)料來(lái)源,首先提出了一種跨語(yǔ)言的實(shí)體識(shí)別方法;整合并改

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論