中文垃圾短文本的自動識別研究.pdf_第1頁
已閱讀1頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、當前社會上用于信息交互的各種社交平臺、即時通訊工具日益普及。這些用來信息交流的平臺工具目前主要使用短文本作為信息傳播與交互的載體,其方便、快捷、高效的特點適合當今信息化、快節(jié)奏的生活。
  所謂短文本主要是指手機短信、微博、商品評論、論壇帖子等一類長度較短,字數(shù)有限的文本。在該類短文本中,往往存在著大量的違反信息交互平臺使用規(guī)定的違法的垃圾類文本,例如垃圾短信、廣告微博、虛假評論等。由于短文本長度較短,字數(shù)有限,編輯來源廣泛且內容

2、編輯存在諸多不規(guī)范。因此,對其進行二分類,識別其中的垃圾類短文本時將會面臨三個問題:(1)數(shù)據噪聲大;(2)訓練數(shù)據集不平衡;(3)如果直接采用基于詞表的向量空間模型來表示短文本,將會導致特征向量過于稀疏且維度較高。
  針對以上三個問題,本文主要進行了以下研究:
  1)提出了適用于短文本的預處理方法,對短文本數(shù)據進行規(guī)范化處理,主要包括“錯別字糾正”、“繁體字轉換”、“大小寫字母的轉換”、“同類信息的統(tǒng)一化表示”等,在一

3、定程度上減少數(shù)據集中存在的噪聲。
  2)從短文本內容的編輯語法、用詞特點等及非內容的結構屬性,即多個角度來提取特征,避免采用基于詞表的向量空間模型表示短文本時,特征向量過于稀疏且維度較高。
  3)提出了隨機森林與 Adaboost相結合的“隨機森林+Adaboost”集成分類方法,該方法將隨機森林作為Adaboost算法的基分類器,用來降低數(shù)據噪聲及數(shù)據不平衡所帶來的影響。
  由于短信與商品評論在內容上具有較大相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論