版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、隨著即時通信和互聯網技術的快速發(fā)展,網絡中的信息每天都在以一定的速率增長著,生活中最常見的就是如:網絡新聞、微博及其評論、聊天記錄、手機短消息、科技文獻摘要、搜索引擎返回的結果和社區(qū)論壇中的發(fā)帖回復等形式的短文本信息,這類文本通常都控制在160個字左右,存在的種類樣式繁多,而且經常以口語化、生活化的不規(guī)則形式出現。特征詞較少、關聯性不強是這類短文本的主要特點,并且其中可能隱匿著一些有價值的信息內容,因而對短文本進行有效的組織分類是非常有
2、必要的。傳統(tǒng)的文本分類方法大多是以長文本作為對象進行研究的,如果直接套用于短文本將會影響分類取得的效果。另外,通常用于構建傳統(tǒng)文本分類器的已標注樣本是需要由人工進行標注才能獲得的,既費時又費力,還易形成標注瓶頸,而相比之下,數量頗為豐富的未經標注樣本的獲取與搜集卻是較為容易的。
傳統(tǒng)基于監(jiān)督學習的分類方法,僅僅是使用了數據樣本集合中的已標注部分,并沒有注意到其中未標注樣本的存在價值,未能較好地挖掘出可能隱藏的信息。而半監(jiān)督學習
3、的方法則是可以將少量的已標注樣本與大量的未經標注樣本相結合起來進行學習訓練,從而使未標注部分能被充分地利用,文本分類器性能得到有效地改善,因此這樣的方法也逐漸地被人們所關注。
考慮到短文本不同于長文本的特點,再加上參考了已有的相關研究成果,本文在現有的分類算法基礎上,將半監(jiān)督學習的思想貫穿到短文本分類的過程當中,改進地使用維基百科對短文本進行特征擴展,提出一種基于半監(jiān)督學習的文本分類方法,用于實現對短文本的有效分類。該方法通過
4、使用外部知識資源庫構建的特征詞擴展表對短文本進行信息擴充以解決特征稀疏等問題,然后構建基于監(jiān)督學習的初始中間過程的分類器,不斷地迭代訓練數據樣本中未標注部分,再用更新過的訓練樣本集來構建最終的文本分類器,通過實驗驗證了該方法能夠達到充分利用大量未標注樣本來改善分類器性能的目的。
另外,為了解決傳統(tǒng)基于向量空間模型構建短文本分類器時造成的文本結構信息的缺失以及大量樣本存在的標注瓶頸問題,提出了一種利用圖結構模型進行半監(jiān)督文本分類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于半監(jiān)督學習的短文本分類研究.pdf
- 基于SVM和半監(jiān)督學習的短文本分類算法研究.pdf
- 基于半監(jiān)督學習的文本分類研究
- 基于半監(jiān)督學習的文本分類研究.pdf
- 基于類短語串和半監(jiān)督學習的短文本分類研究.pdf
- 基于半監(jiān)督學習的文本分類算法研究.pdf
- 基于協(xié)同訓練的半監(jiān)督短文本分類方法研究.pdf
- 基于半監(jiān)督與集成學習的文本分類方法研究.pdf
- 基于半監(jiān)督學習的中文文檔分類技術研究.pdf
- 基于選擇性集成的半監(jiān)督中文文本分類研究.pdf
- 基于半監(jiān)督的SVM遷移學習文本分類方法.pdf
- 基于于半監(jiān)督SVM主動學習的文本分類算法研究.pdf
- 基于半監(jiān)督學習的遙感影像分類.pdf
- 中文短文本分類的相關技術研究.pdf
- 基于條件隨機場的中文短文本分類算法研究.pdf
- 短文本分類研究.pdf
- 中文短文本分類技術的研究與實現.pdf
- 基于半監(jiān)督學習的文本情感分類平臺的設計與實現.pdf
- 基于EM算法的半監(jiān)督文本分類方法研究.pdf
- 基于本體的短文本分類研究.pdf
評論
0/150
提交評論