基于多標簽新聞語料的閱讀者情感分析.pdf_第1頁
已閱讀1頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、伴隨著Web2.0技術的快速發(fā)展,許多工具如博客、微博、微信等成為人們日常生活中信息發(fā)布與共享的網(wǎng)絡平臺,每個人可以在網(wǎng)絡上分享對某事件的觀點、看法,其中也包含了大量的個人意見、主觀情感和情緒反饋。基于大規(guī)模網(wǎng)絡文本信息的情感分析是輿情分析領域的一個重要部分,探究文本信息中所包含群眾情緒的動態(tài)趨勢對于社會學研究有著重要意義。
  本文的研究主要是閱讀者角度的情感分析問題,即通過分析新聞文本中的詞語或包含的主題信息,來預測閱讀者在讀

2、完這篇新聞后可能引發(fā)的情緒。在以往的研究中,文本情感分析主要是從作者角度出發(fā)探究其中表達的主觀情感,對閱讀者情緒反饋的相關研究相對較少;另一方面,相關領域通常將文本情感分析問題視為單標簽問題進行處理,即默認一篇文檔只能引發(fā)閱讀者的一種情緒,顯然這與實際問題不符,一篇新聞對于社會大眾引起的情緒可能不盡相同,統(tǒng)計數(shù)據(jù)顯示投票較多的情感類別一般有多個;此外,相關工作大部分是基于詞袋模型進行的研究,根據(jù)社會心理學研究的觀點,閱讀者情緒不僅會與新

3、聞文本中直觀的詞語有關聯(lián),還與新聞報道中隱含的事件主題有著間接關系。針對上述問題,本文基于社會大眾標注的多標簽語料進行了系統(tǒng)化的文本情感分析,主要的工作有以下幾個方面:
  (1)多標簽新聞語料的構建。針對研究中的著重點“多標簽”、“閱讀者”,將情感分析任務當做多標簽分類問題,爬取了社會化標注的新浪社會新聞文本及其讀者投票數(shù)據(jù),并對投票數(shù)據(jù)進行處理。
  (2)分別采用詞袋模型和主題模型對多標簽新聞語料數(shù)據(jù)進行實驗,并分析了

4、實驗結果。從不同角度對數(shù)據(jù)進行處理,針對二分類、多分類以及多標簽分類問題對數(shù)據(jù)集進行建模,然后訓練好模型預測閱讀者情感。實驗數(shù)據(jù)表明,在分類性能上主題模型相對優(yōu)于詞袋模型,并且,采用主題模型時文本的特征向量維度遠遠小于詞袋模型,模型代價消耗較小,有著重要的現(xiàn)實意義。
  (3)借鑒混合標簽的M-LDA方法,將情緒標簽視為已知標簽并將該方法應用到文本情緒分類中。傳統(tǒng)的LDA是一個無監(jiān)督的主題模型,應用在標簽分類問題中往往需要結合分類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論