HMM在中文評價挖掘中的研究與應(yīng)用.pdf_第1頁
已閱讀1頁,還剩85頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、伴隨著電子商務(wù)的迅速發(fā)展,用戶評論信息也快速積累起來,如何有效利用用戶評論信息分析商品的各種特征是潛在消費者所關(guān)心的問題,而同時如何有效利用用戶評論信息來追蹤商品的口碑,銷售趨勢,市場影響力等也是商家所非常關(guān)注的問題。所以,針對評論的挖掘具有非?,F(xiàn)實的意義。
  近年來,已經(jīng)有不少與中文評論挖掘相關(guān)的工作在開展,有的學(xué)者在文檔層面上使用LSA模型或者是n-gram模型進行分析,但僅僅給出該文檔推薦或者不推薦的兩極性結(jié)果,粒度比較粗

2、糙,信息提取得不夠充分,而有些學(xué)者在特征詞層面上進行評論的挖掘,但對于低頻詞以及短語結(jié)構(gòu)的識別還存在或多或少的問題。還有些工作則集中于對命名實體的識別上,解決對文檔中詞語的提取問題,但是很少兼顧到詞語的感情傾向等主觀信息。隨著大規(guī)模機器學(xué)習(xí)技術(shù)的不斷發(fā)展,一些機器學(xué)習(xí)算法逐漸被投入到評論挖掘相關(guān)的領(lǐng)域中,并且取得了很好的效果。比如基于隱馬爾可夫模型和層疊隱馬爾可夫模型的命名實體識別,基于最大熵馬爾科夫模型的自然語言處理研究等。
 

3、 本文在前人的工作基礎(chǔ)上,考慮到自然語言的語言學(xué)特征,通過將詞性詞匯特征納入到標(biāo)準(zhǔn)隱馬爾科夫模型中,提出了基于詞性詞匯的隱馬爾科夫模型,在評論的極性分析和評價對象的提取方面都取得了不錯的效果。
  本文的主要工作為:
  1.深入研究探討隱馬爾可夫模型中的三個問題,即評估問題、序列問題以及學(xué)習(xí)問題。同時也對這三個問題的算法求解過程進行了細(xì)致的理解和掌握,分別是用于求解評估問題的前向-后向算法,用于求解序列問題的最大似然估計與

4、期望最大化算法以及用于求解學(xué)習(xí)問題的Viterbi算法。
  2.基于標(biāo)準(zhǔn)隱馬爾科夫模型,提出了基于詞性詞匯信息的隱馬爾科夫模型,并推導(dǎo)了模型的計算式,同時對模型在工程實踐中碰到的一些主要訓(xùn)練問題提供了相應(yīng)的解決辦法,包括使用古德-圖靈估計解決模型訓(xùn)練中的零概率問題,使用對數(shù)運算取代連乘運算以解決浮點數(shù)下溢問題,使用LDA(Latent dirichlet allocation)模型解決未登錄詞數(shù)量較大的問題。結(jié)果,在電商商品評論

5、文本上的數(shù)據(jù)挖掘工作中表現(xiàn)了較好的效果。
  3.定義了一套適用于電商評論內(nèi)容的標(biāo)注規(guī)則,并在模型訓(xùn)練數(shù)據(jù)集的構(gòu)建過程中發(fā)揮了良好的作用。同時使用詞向量模型算法對評論挖掘結(jié)果集中的同義詞與近義詞進行了合并處理,有效防止了意義相近的高頻評論的特征淹沒了其他低頻評論的特征。
  4.對本文所提出的算法進行了對比評測,在不同分類下的電商商品評論上進行了多個模型的精確率,召回率,F(xiàn)1值比較工作,實驗結(jié)果證明了本文所提算法具有更好的效

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論