短文本信息抽取若干技術(shù)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩101頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)滲透到人們生活中的各個(gè)角落,成為人們生活中不可缺少的一部分?;ヂ?lián)網(wǎng)的飛速發(fā)展帶來(lái)了各種各樣數(shù)量巨大的信息,這些信息正以爆炸式的速度增長(zhǎng),如何有效地獲取、保存和利用這些信息是現(xiàn)在大數(shù)據(jù)時(shí)代的重要課題。在互聯(lián)網(wǎng)海量信息中,用戶在各種社交網(wǎng)絡(luò)平臺(tái)中發(fā)布的信息增長(zhǎng)尤為迅速,這些社交網(wǎng)絡(luò)中的信息文本較短、用戶語(yǔ)言較為隨意、文本語(yǔ)法性較差,我們將其統(tǒng)稱為“短文本”,具有代表性的短文本有微博、商品評(píng)論、BBS論壇發(fā)言等。

2、短文本的出現(xiàn)給傳統(tǒng)的Web信息抽取工作帶來(lái)了許多機(jī)遇和挑戰(zhàn)。由于社交網(wǎng)絡(luò)中的短文本信息量大、信息維度廣,使得一些在短文本中的信息抽取任務(wù)非常有價(jià)值,這些任務(wù)包括事件檢測(cè)和事件分析、情感分析、知識(shí)圖譜挖掘等。然而短文本的文本特性給在短文本中的信息抽取工作帶來(lái)了困難和挑戰(zhàn),如何有效地在短文本中進(jìn)行信息抽取也成為了一個(gè)研究熱點(diǎn)。
  本文針對(duì)短文本信息抽取中的幾個(gè)關(guān)鍵問(wèn)題,即微博事件抽取、微博事件語(yǔ)義元素抽取和商品評(píng)論情感分析展開(kāi)研究。

3、微博事件抽取旨在從微博數(shù)據(jù)中抽取出用戶所需要的事件。微博平臺(tái)龐大的用戶群體帶來(lái)了數(shù)據(jù)量巨大的微博文本,這些微博文本中包含著許許多多事件信息,這使得微博在對(duì)事件的報(bào)道上比傳統(tǒng)新聞媒體更具優(yōu)勢(shì)。如何有效地從微博中抽取出相關(guān)事件也成為了一項(xiàng)有意義的研究工作。對(duì)于抽取出的微博事件,如何為這些事件尋找一種完整且直觀的表達(dá)方式也是一個(gè)重要的課題。本文使用新聞學(xué)中事件的語(yǔ)義元素5W1H(When,Where,Who,What,Whom和How)對(duì)抽取

4、出的微博事件進(jìn)行表達(dá)。事件的5W1H語(yǔ)義元素對(duì)于完整地描述一個(gè)微博事件非常有幫助,如何在語(yǔ)言較為隨意的微博文本中抽取事件的語(yǔ)義元素也是一項(xiàng)有價(jià)值的工作。商品評(píng)論情感分析旨在于抽取用戶在商品評(píng)論中表現(xiàn)出的情感傾向性。在電子商務(wù)發(fā)展迅猛的今天,網(wǎng)上購(gòu)物已經(jīng)成為許多人購(gòu)物時(shí)的首選。通過(guò)對(duì)用戶商品評(píng)論的情感傾向性進(jìn)行有效挖掘,不僅能夠方便用戶做出購(gòu)買(mǎi)決策,還能使商家更好地完善商品,提升銷量。
  本文針對(duì)以上幾個(gè)短文本信息抽取中的研究問(wèn)題

5、提出了一系列解決方法,本文的主要貢獻(xiàn)可以總結(jié)為如下幾點(diǎn):
  1.對(duì)于微博事件抽取問(wèn)題,由于命名實(shí)體信息是一個(gè)事件的重要組成部分,對(duì)于不同類型的事件,事件文本中不同類型的命名實(shí)體分布也不相同,因此將命名實(shí)體信息加入到事件抽取的過(guò)程中,可以提升抽取的效果。本文將事件的類型定義為事件中不同類型命名實(shí)體的概率分布。通過(guò)提出一種基于機(jī)器學(xué)習(xí)的方法,自動(dòng)抽取事件微博文本中的事件類型。通過(guò)文本聚類的方法抽取微博事件,在聚類的過(guò)程中,通過(guò)加入抽

6、取出的事件類型信息,提升了聚類的效果。
  2.針對(duì)已有的對(duì)微博事件的表達(dá)方式不能完整地描述一個(gè)事件的問(wèn)題,本文使用事件語(yǔ)義元素5W1H對(duì)事件進(jìn)行表達(dá)。由于微博的文本特點(diǎn),傳統(tǒng)在Web網(wǎng)頁(yè)上抽取事件語(yǔ)義元素的方法在微博文本中效果較差,因此本文提出了新的方法對(duì)微博事件語(yǔ)義元素進(jìn)行抽取。對(duì)于When和Where元素,本文提出了一種基于粒度的自粗向細(xì)的抽取方法,該方法考慮了不同粒度上的時(shí)間/地理信息,通過(guò)粒度上自粗向細(xì)的逐層抽取方法提升

7、了抽取效果。對(duì)于Who、What和Whom元素,本文提出了一種詞語(yǔ)聚類和鏈接的方法。該方法通過(guò)將不同句子成分中的詞語(yǔ)進(jìn)行聚類使得對(duì)同一實(shí)體的不同表達(dá)被聚類在相同的詞語(yǔ)簇中,再利用不同句子成分中詞語(yǔ)的共現(xiàn)關(guān)系將詞語(yǔ)簇進(jìn)行鏈接,得到事件語(yǔ)義元素。這種方法較為有效地解決了事件微博簇中對(duì)于同一實(shí)體存在不同表達(dá)方式的問(wèn)題,因此提升了事件語(yǔ)義元素的抽取效果。
  3.對(duì)于商品評(píng)論情感分析問(wèn)題,由于在一條評(píng)論文本中用戶對(duì)于商品的不同維度可能存在

8、不同的情感傾向性,傳統(tǒng)基于句子、篇章等的情感分析方法并不適用。為此本文提出了一個(gè)多維度商品評(píng)論情感分析的方法框架,旨在于抽取用戶對(duì)不同商品維度的情感傾向性。在該方法中,對(duì)于一個(gè)初始的商品評(píng)論長(zhǎng)句,本文提出使用基于卷積神經(jīng)網(wǎng)絡(luò)的方法對(duì)句子進(jìn)行切分。經(jīng)過(guò)切分后的每個(gè)短句中只包含用戶對(duì)最多一個(gè)商品維度的評(píng)價(jià)。對(duì)于每個(gè)短句,本文使用文本和維度關(guān)鍵詞之間的相關(guān)性將其與一個(gè)商品維度建立映射關(guān)系,并最后在該商品維度下進(jìn)行情感分類。針對(duì)情感分析中相同的

9、情感詞在不同的商品維度下表現(xiàn)出的情感極性可能不同的問(wèn)題,本文使用半自動(dòng)的方法為每個(gè)商品維度構(gòu)建了維度情感詞典,通過(guò)使用維度情感詞典,情感分析的效果得到了提升。
  本文的研究較好地緩解了短文本用戶語(yǔ)言較為隨意、語(yǔ)法不規(guī)范等問(wèn)題對(duì)傳統(tǒng)信息抽取工作帶來(lái)的影響。論文提出了微博事件類型抽取算法、基于事件類型的微博事件抽取方法、微博事件5W1H語(yǔ)義元素抽取算法、多維度商品評(píng)論情感分析方法等一系列新的設(shè)計(jì),并在真實(shí)數(shù)據(jù)集上驗(yàn)證了所有算法的有效

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論