

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、伴隨著電子商務(wù)的迅速發(fā)展,用戶評論信息也快速積累起來,如何有效利用用戶評論信息分析商品的各種特征是潛在消費者所關(guān)心的問題,而同時如何有效利用用戶評論信息來追蹤商品的口碑,銷售趨勢,市場影響力等也是商家所非常關(guān)注的問題。所以,針對評論的挖掘具有非?,F(xiàn)實的意義。
近年來,已經(jīng)有不少與中文評論挖掘相關(guān)的工作在開展,有的學(xué)者在文檔層面上使用LSA模型或者是n-gram模型進行分析,但僅僅給出該文檔推薦或者不推薦的兩極性結(jié)果,粒度比較粗
2、糙,信息提取得不夠充分,而有些學(xué)者在特征詞層面上進行評論的挖掘,但對于低頻詞以及短語結(jié)構(gòu)的識別還存在或多或少的問題。還有些工作則集中于對命名實體的識別上,解決對文檔中詞語的提取問題,但是很少兼顧到詞語的感情傾向等主觀信息。隨著大規(guī)模機器學(xué)習(xí)技術(shù)的不斷發(fā)展,一些機器學(xué)習(xí)算法逐漸被投入到評論挖掘相關(guān)的領(lǐng)域中,并且取得了很好的效果。比如基于隱馬爾可夫模型和層疊隱馬爾可夫模型的命名實體識別,基于最大熵馬爾科夫模型的自然語言處理研究等。
3、 本文在前人的工作基礎(chǔ)上,考慮到自然語言的語言學(xué)特征,通過將詞性詞匯特征納入到標(biāo)準(zhǔn)隱馬爾科夫模型中,提出了基于詞性詞匯的隱馬爾科夫模型,在評論的極性分析和評價對象的提取方面都取得了不錯的效果。
本文的主要工作為:
1.深入研究探討隱馬爾可夫模型中的三個問題,即評估問題、序列問題以及學(xué)習(xí)問題。同時也對這三個問題的算法求解過程進行了細(xì)致的理解和掌握,分別是用于求解評估問題的前向-后向算法,用于求解序列問題的最大似然估計與
4、期望最大化算法以及用于求解學(xué)習(xí)問題的Viterbi算法。
2.基于標(biāo)準(zhǔn)隱馬爾科夫模型,提出了基于詞性詞匯信息的隱馬爾科夫模型,并推導(dǎo)了模型的計算式,同時對模型在工程實踐中碰到的一些主要訓(xùn)練問題提供了相應(yīng)的解決辦法,包括使用古德-圖靈估計解決模型訓(xùn)練中的零概率問題,使用對數(shù)運算取代連乘運算以解決浮點數(shù)下溢問題,使用LDA(Latent dirichlet allocation)模型解決未登錄詞數(shù)量較大的問題。結(jié)果,在電商商品評論
5、文本上的數(shù)據(jù)挖掘工作中表現(xiàn)了較好的效果。
3.定義了一套適用于電商評論內(nèi)容的標(biāo)注規(guī)則,并在模型訓(xùn)練數(shù)據(jù)集的構(gòu)建過程中發(fā)揮了良好的作用。同時使用詞向量模型算法對評論挖掘結(jié)果集中的同義詞與近義詞進行了合并處理,有效防止了意義相近的高頻評論的特征淹沒了其他低頻評論的特征。
4.對本文所提出的算法進行了對比評測,在不同分類下的電商商品評論上進行了多個模型的精確率,召回率,F(xiàn)1值比較工作,實驗結(jié)果證明了本文所提算法具有更好的效
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)據(jù)挖掘在中文病歷中的應(yīng)用.pdf
- 鄰域信息HMM在個體疾病預(yù)測中的研究與應(yīng)用.pdf
- 數(shù)據(jù)挖掘在電信客戶評價中的研究和應(yīng)用.pdf
- 數(shù)據(jù)挖掘在供應(yīng)商評價中的應(yīng)用.pdf
- 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)在評價系統(tǒng)中的應(yīng)用.pdf
- 數(shù)據(jù)挖掘技術(shù)在高校教學(xué)評價中的應(yīng)用研究.pdf
- VQ和HMM在語音識別中的應(yīng)用.pdf
- 數(shù)據(jù)挖掘在教學(xué)評價中的研究與應(yīng)用.pdf
- 數(shù)據(jù)挖掘在保險中的研究與應(yīng)用.pdf
- 數(shù)據(jù)挖掘在目標(biāo)行銷中的研究與應(yīng)用.pdf
- 聚類分析在文本挖掘中的應(yīng)用與研究.pdf
- SVM在Web文本挖掘中的應(yīng)用與研究.pdf
- WEB挖掘在VOD系統(tǒng)中的研究與應(yīng)用.pdf
- 數(shù)據(jù)挖掘技術(shù)在醫(yī)保中的研究與應(yīng)用.pdf
- 數(shù)據(jù)挖掘在股票分析中的研究與應(yīng)用.pdf
- 聚類挖掘研究及其在隧道病害評價中的應(yīng)用.pdf
- 數(shù)據(jù)挖掘及在綠地生態(tài)評價中的應(yīng)用研究.pdf
- 數(shù)據(jù)挖掘在水資源分析評價中的應(yīng)用研究.pdf
- 基于HMM的中文語音合成研究.pdf
- 中文文本挖掘技術(shù)的研究與應(yīng)用.pdf
評論
0/150
提交評論