

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、<p> 基于微博的社會輿情研判與預警體系構建</p><p> 摘 要:本研究以新浪微博為主要輿情采集平臺,對微博系統內海量信息進行日常性和持續(xù)性的抓取、跟蹤與搜集。本論文針對微博信息傳播特點,充分利用網絡信息挖掘技術、計算機中文信息處理技術、數據挖掘技術等應用技術,研究微博輿情監(jiān)測關鍵技術及實施方案,力求構建適應微博特點的網絡輿情預警機制。 </p><p> 關鍵詞:
2、微博;輿情;研判;預警 </p><p><b> 1 引言 </b></p><p> 近年來我國各類突發(fā)事件頻發(fā),社會穩(wěn)定性顯著降低,這不僅直接導致社會經濟生活及人身財產安全的重大損失,也極大地危害到社會的穩(wěn)定與發(fā)展。中國社科院在其出版的《社會藍皮書》一書中,將微博定義為"殺傷力最強的輿論載體",體現了微博輿論的強大影響力。 </p&
3、gt;<p> 本研究來源于北京市大學生科研創(chuàng)新項目《基于微博的社會輿情研判與預警》的子項目,試圖以新浪微博為對象,研究微博輿情監(jiān)測關鍵技術及實施方案,具體內容包括:博文自動抽取、中文分詞、文檔清洗(去停用詞)、中文計算機表達、文檔情感傾向判別、意見領袖識別、綜合輿情判斷等內容。 </p><p><b> 2 研究過程 </b></p><p>
4、 2.1 微博數據的自動獲取 </p><p> 網絡輿情數據獲取是網絡輿情分析的前提。面對互聯網的海量信息,迫切需要一種技術來幫助人們自動從網絡上獲取相關信息,從而可以極大地提高人們獲取信息的速度和廣度。網絡爬蟲(WEB Crawler)是搜索引擎的重要組成部分之一,其作用是為搜索引擎從網絡中下載所需的網頁。相比網絡爬蟲,新浪微博的開放API接口可以更加簡潔的獲取相應的數據,本研究即采用新浪微博的API接口作
5、為數據挖掘工具。 </p><p> ?、?OAUTH認證:使用新浪API前首先須完成用戶認證。新浪微博API采用OAUTH認證為用戶提供了一個安全的、開放而又簡易的標準。 </p><p> ?、?新浪微博API接口定義:新浪微博API調用接口形如:http: //api.t.sina.com.cn/statuses/followers.json? source=appkey&u
6、ser_id=11051&count=200&cursor=1200。該命令分別指定了新浪API服務器地址、接口信息具體內容及方法;OAUTH認證信息、用戶數字ID、返回記錄的首位置及記錄條數。 </p><p> ?、?微博數據抽取器的主要功能包括:用戶登錄驗證,獲取follower微博列表,獲取回復列表,獲取私信列表,獲取收藏列表等。 </p><p> 2.2 文本
7、分詞處理及矢量化表示 </p><p> ① 中文分詞及詞性標注:由于英文文本每個單詞間用空格分開,計算機很容易識別。但對于中文文本,詞語之間無區(qū)分字符,需根據語義語法來分斷。中科院的中文分詞系統ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)分詞準確率較高,本研究選取ICTCLAS進行分詞。 </p&g
8、t;<p> ?、?中文文本表示模型:常見的文本表示模型主要有布爾模型、向量空間模型、概率語言模型等。布爾模型采用布爾向量來表示文本,但不能定量反映特征項對于文本的貢獻程度;概率模型用概率值來表示詞在各類文本中出現的概率,但無法處理語言中的長距離依賴;向量空間模型采取TF-IDF值表示特征項的權值。詞頻TF(Term Frequency)指某一特征詞在當前文本出現的相對次數;逆文檔頻率IDF(Inverse Documen
9、t Frequency)用于評估特征詞的重要性。由于該模型簡易高效,本研究即采用此法表示中文文本。 </p><p> 2.3 文本清洗(去停用詞) </p><p> 停用詞是指文本中出現頻率很高,但實際意義又不大的詞。停用詞大致有兩類,第一類包括語氣助詞、介詞等,如常見的“的”、“地”之類;另一種是在所有文檔中大量出現的詞,如“頂”之類。本研究中使用停用詞表實現對停用詞的過濾功能。
10、 </p><p> 2.4 文本情感傾向判斷 </p><p> 輿情立場判別可通過判斷博文的感情傾向得到,最常見的是根據其包含的褒貶詞匯來進行計算。為獲得文本的情感極性,需首先提取情感詞,本研究基于情感詞詞典的方法來提取情感詞。 </p><p> ① 極性詞典的構建:詞語除可表達特有的概念外,還能傳達一定的感情色彩。感情色彩大體分為褒義和貶義兩種,褒義如
11、“好,聰明、優(yōu)秀”等,貶義如“壞、鄙夷、惡魔”等。具有褒貶義的詞語集合稱為極性詞典,本研究的極性詞典主要取自《知網》 (HowNet),包括程度級別詞語、正負面評價詞語、正負面情感詞語等。 </p><p> ?、?傾向性分析算法與實現過程:詞語中還有些極性修飾詞,處理時,可給這些修飾詞設置不同的強度系數。如定義極性褒義、貶義的原始強度分別為:+1,-1,再定義極性修飾詞“極其/最”的強度系數為2,則總的情感極性
12、=詞語極性*強度系數。另有些特殊情況需考慮:句式反轉規(guī)則,適用于漢語中表示否定和反問句式,如:“不、不是、非、并非、難道、豈不”引導的句子,另遇到雙引號或單引號括起的情感詞,均應對原話中的褒貶義進行反轉。感情強化規(guī)則:漢語的感嘆號等可表示情感的增強,故可用感嘆號的數量來表示感情色彩的強度。 </p><p> 2.5 意見領袖識別 </p><p> 社會突發(fā)事件發(fā)生后,微博中會往往會
13、產生群體情緒,其間意見領袖對群體情緒的演化及輿情研判影響極大。據拉扎菲爾德的定義,意見領袖指在某一主題內特別活躍且有極大影響力的用戶,所以本研究從如下兩個方面分析微博意見領袖:用戶影響力和用戶活躍度。 </p><p> ?、?用戶影響力:微博中有三種交互行為可以作為影響力考慮因素。轉發(fā)行為,信息被轉發(fā)的次數越多,產生的影響越大;評論行為,信息得到的評論越多,意味著信息影響的范圍越廣; “@“行為,一個用戶被提及
14、的次數越多,意味著這個用戶對其他用戶的吸引力越大。 </p><p> ?、?用戶活躍度:意見領袖要對其他人施加影響,僅僅發(fā)布信息而不參與互動交流是無法影響到人們的觀點和意見。包括:原創(chuàng)微博數量,代表用戶表達自己思想的愿望;自回帖行為,反映用戶之間的交流活躍度;回復他人帖子數,反映對其他用戶的言論關注度;活躍天數,反映用戶對事件的關注持久度。 </p><p> 2.6 輿情指標體系 &
15、lt;/p><p> 由網絡的海量個體信息中發(fā)掘群體行為規(guī)律,對確定突發(fā)事件的發(fā)展狀態(tài)以及對衍生事件的預警具有重要價值,可以實現對社會事件高效的輔助決策。本研究將指標評價體系劃分為:輿情主體、輿情信息、輿情傳播和輿情受眾4個指標,細述如下: </p><p> 輿情主體指標:是指微博所有者的相關個人身份信息指標。 </p><p> 輿情信息指標:輿情信息指標反映
16、了該輿情的敏感程度、危害程度以及受到關注的程度。 </p><p> 輿情傳播指標:輿情傳播指標反映了該輿情在傳播過程中的擴散效果。 </p><p> 輿情受眾指標:輿情的受眾指標反映了受眾所處的地域,對輿情的共鳴及回應態(tài)度。 </p><p><b> 3 結論 </b></p><p> 本文依據微博傳播特
17、點,借助網絡信息挖掘、計算機中文信息處理等原理及技術,構建了一個微博輿情自動監(jiān)測系統的實施方案,并對其關鍵技術進行研究。該方案涉及到博文自動抽取、中文分詞、文檔清洗(去停用詞)、中文計算機表達、文檔情感傾向判別、意見領袖識別、綜合輿情判斷等各專項技術,從而可為基于微博內容的網絡輿情自動監(jiān)測及預警提供準確的依據。 </p><p><b> 參考文獻 </b></p><
18、p> [1]王曉龍,關毅.計算機自然語言處理[M].北京:清華大學出版社,2005. </p><p> [2]劉豐;基于微博的突發(fā)事件檢測和信息傳播建模[D];哈爾濱工業(yè)大學;2011年 </p><p> [3]曉龍;突發(fā)事件的互聯網信息傳播規(guī)律研究[D];哈爾濱工業(yè)大學;2011年 </p><p> [4]陳友,程學旗,楊森. 面向網絡論壇的突
19、發(fā)話題發(fā)現[J]. 中文信息學報. 2010(03) </p><p><b> 作者簡介 </b></p><p> 張利民,(1964-),女,甘肅蘭州人,1986年畢業(yè)于西北師范大學政法學院,獲得學士學位,副教授;主要研究方向:汽車技術服務與營銷。 </p><p> 鄒姝陽,(1990-),女,甘肅蘭州人,2013年畢業(yè)于中央財經
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 微博輿情生產、研判與處置研究
- 網絡輿情研判體系初探
- 網絡輿情研判體系初探.pdf
- 突發(fā)事件情境下微博輿情動態(tài)預警研究
- 基于輿情分析研判的突發(fā)事件預警平臺的設計與實現.pdf
- 基于社會公共事件的微博輿情發(fā)展影響因素分析
- 基于PSO-KHM聚類的微博輿情預警系統的研究與實現.pdf
- 基于社會公共事件的微博輿情發(fā)展影響因素分析.pdf
- 5133.基于微博的網絡輿情信息擴散及其預警機制研究
- 微博輿情對社會公共事件的影響.pdf
- 微博轉基因輿情的社會網絡分析.pdf
- 基于情感分析的微博輿情研究.pdf
- 基于社會網絡分析的微博輿情傳播主體分析研究
- 基于微博數據的網絡輿情分析
- 基于微博的輿情分析系統設計與實現.pdf
- 基于微博數據的網絡輿情分析.pdf
- 基于社會網絡分析的微博輿情傳播主體分析研究.pdf
- 基于內容的新浪微博輿情預測研究.pdf
- 基于微博的網絡輿情關鍵技術的研究與實現
- 微博輿情地方化的應對與管理
評論
0/150
提交評論