Web社會媒體中信息的質量評價及應用研究.pdf_第1頁
已閱讀1頁,還剩138頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、社會媒體是一組以Web2.0為意識形態(tài)和技術基礎構建的網絡應用程序,用戶可以在其中分享信息、發(fā)表觀點以及公開交流,并且建立起虛擬的社會關系。主要的社會媒體形式有Web論壇、微博、博客以及社交網絡等,這些平臺目前已成為非常流行的知識共享和信息傳遞渠道。社會媒體以用戶量大、互動性強、內容覆蓋面廣、實時性高以及多媒體、多維度的數據為特點,其中蘊含著豐富且有價值的知識和信息。如何有效的對這些知識和信息進行挖掘利用,有著重要的學術意義和廣闊的應用

2、前景,已經成為學術界和工業(yè)界共同關注的熱點問題。然而,在對社會媒體進行挖掘利用的研究中,也存在著問題與挑戰(zhàn),主要包括:(1)文本數據稀疏問題導致傳統的數據挖掘方法在社會媒體信息上不是十分有效;(2)存在很大比例的低質量信息;(3)多媒體、多維度的數據難以有效的融合。
   針對上述問題和挑戰(zhàn),本文以“國家自然科學基金”和“山東省自然科學基金”為依托,從社會媒體中信息的質量評價和基于社會媒體的事件檢測兩個方面展開研究,論文的主要工

3、作和創(chuàng)新點包括以下幾個方面:
   (1)提出了一種基于LDA的Web論壇低質量回帖檢測方法
   Web論壇中存在著大量低質量的回帖,給用戶瀏覽帶來不便,也嚴重影響了基于論壇的數據挖掘研究的進行。因此,低質量回帖的濾除是對這些信息進行挖掘利用的必需和重要的預處理步驟。
   本文提出了一種基于二元分類的低質量回帖檢測方法。與已有的方法不同,新方法在對回帖進行質量分類時同時考慮了回帖的語義特征和統計特征。為克服傳

4、統的基于統計的特征表示方法在稀疏數據上的局限性,本文提出在LDA主題空間計算語義特征。首先使用全部起始帖集合擬合LDA模型,然后用擬合好的LDA模型將回帖內容映射到主題空間,進而計算三種語義特征,分別為J/I主題比例、主題相關度和主題不確定度。統計特征包括內容淺層特征、句法特征和論壇專有特征。使用語義特征和統計特征作為表征回帖質量的特征向量。實驗在從三個不同類型的論壇收集的數據集上進行,實驗結果表明,新方法在精確率、召回率和F1測度上均

5、優(yōu)于已有的低質量回帖檢測方法。
   (2)提出了一種基于機器學習的論壇回帖排序算法。
   論壇中的發(fā)帖和瀏覽行為與信息檢索的過程十分類似。因此,如果能夠像信息檢索中的檢索結果排序一樣將回帖按質量排序,將有助于用戶快速的定位高質量信息,也有利于其它基于論壇的應用。
   本文借鑒信息檢索領域針對檢索結果的排序學習研究,將一個討論主題中的起始帖視為查詢而將回帖視為與查詢相聯系的檢索結果,提出了一種基于機器學習的回

6、帖排序算法LGPRank。LGPRank基于遺傳規(guī)劃框架自動的在訓練集上學習到一個相對最優(yōu)的排序函數。在對回帖進行質量特征表示時同樣考慮了語義特征和統計特征。語義特征在LDA主題空間進行計算,使用Wiki百科作為外部知識庫擬合LDA模型,以進一步減輕數據稀疏問題帶來的影響。實驗在兩個真實數據集上進行,實驗證明LGPRank在P@N、NDCG@N和MAP評價測度上均優(yōu)于已有的回帖排序算法。此外,在使用相同特征集合的條件下,基于遺傳規(guī)劃的排

7、序學習得到的結果優(yōu)于使用其它排序學習方法(如Ranking SVM、RankBoost等)得到的結果。結果表明使用排序學習的思想對回帖進行按質量排序是可行的。
   (3)提出了一種使用社會媒體數據進行熱點事件檢測的方法。
   現實世界中發(fā)生的事件通常在社會媒體中有著廣泛而及時的體現。隨著數字圖像技術的飛速發(fā)展,人們可以方便的使用各種數碼照相設備拍攝下他們生活中每一個瞬間并上傳到Web圖像社區(qū)中(如Flickr)。這些

8、照片中很大一部分是在特定事件發(fā)生的現場拍攝的,并且?guī)в杏脩艚o出的文本標注信息和GPS位置信息。這使得Web圖像社區(qū)成為事件檢測研究的良好數據源。但是Web圖像社區(qū)數據也存在文本數據稀疏、噪聲信息多等問題。
   本文提出了一種使用Flickr數據進行熱點事件檢測的方法。該方法首先將用戶標注中的文本詞匯與從Flickr圖像中提取的視覺詞匯合并成文檔,并訓練LDA模型獲得文檔的主題分布作為其最終的向量表示,目的是進行多媒體特征融合和

9、削弱數據稀疏問題的影響。在此基礎上對傳統的基于單遍聚類的事件檢測算法進行改進,在事件檢測過程中首先考慮了地理位置信息,然后再根據內容相似度建立文檔與事件的聯系。使用衰退理論(Aging Theory)對檢測到的事件進行生命周期建模,并根據能量值對事件進行排序,獲得給定時間段內的熱點事件。在真實Flickr數據集上的實驗證明新方法在精確率、召回率和F1測度上優(yōu)于傳統事件檢測方法。在P@10測度下的評測結果證明了熱點事件檢測結果的合理性。實

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論