版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、隨著在線旅游的迅猛發(fā)展,實時分析旅游者對旅游景點的觀點與態(tài)度的需求愈發(fā)迫切。面對在線旅游平臺中日益激增的評論數(shù)據(jù),僅靠人工分析,耗時耗力且供不應(yīng)求。因此,觀點挖掘即通過計算機(jī)自動從海量的用戶評論中提取出能表達(dá)用戶觀點和情感的信息,具有重要的理論價值和應(yīng)用價值。
觀點挖掘具體包含方面抽取和觀點摘要兩個重要的子任務(wù)。前者的目的是識別文本中用戶所評價的方面及其情感傾向,后者的目的是在于對提取的觀點信息進(jìn)行量化匯總,形成便于用戶理解的
2、摘要形式。近些年,雖然針對上述子任務(wù)的研究成果層出不窮,但是目前的觀點挖掘技術(shù)仍無法解決旅游領(lǐng)域中所存在的問題。具體而言,第一,旅游者在撰寫景點評論時,通常會夾雜了個人的旅游經(jīng)歷,會引入大量與評價主題不太相關(guān)的內(nèi)容,而現(xiàn)階段的方面抽取研究的關(guān)注點集中在對評價對象的抽取和觀點詞的判定,很少有研究關(guān)注如何衡量所抽取方面與評價主題的相關(guān)程度;第二,在線旅游平臺中,即使是同一景點,其評論的評分在時間上會呈現(xiàn)較大差異,即在時間軸上存在“變點”情況
3、,而傳統(tǒng)的觀點摘要技術(shù)并不能很好地反映用戶的情感變化。
針對上述問題,本文提出了動態(tài)觀點挖掘的概念,并提出虛擬觀點文檔模型作為實現(xiàn)。主要工作包括:
(1)提出一種基于詞頻和句法關(guān)聯(lián)度相結(jié)合的權(quán)重算法,用來動態(tài)衡量所抽取的方面與評價主題的相關(guān)程度。本文提出的權(quán)重計算策略源于對在線旅游平臺中評論數(shù)據(jù)的兩個觀察,結(jié)合方面抽取過程中的統(tǒng)計信息,分別為所抽取的方面在全局文檔中的出現(xiàn)頻率以及在局部文檔中的句法關(guān)聯(lián)度。
4、(2)提出一種基于時間軸的觀點摘要策略,用來動態(tài)描述用戶的觀點變化。本文首先在句子級別上對傳統(tǒng)的觀點四元組進(jìn)行擴(kuò)展,增加時間變量。然后在篇章級別根據(jù)時間值對已構(gòu)建虛擬觀點文檔進(jìn)行聚合。最后生成基于時間軸的觀點分布。
(3)實現(xiàn)一個完整的基于虛擬觀點文檔的動態(tài)觀點挖掘系統(tǒng)。該系統(tǒng)采用了微服務(wù)的分布式架構(gòu),通過分解單體應(yīng)用為多個微服務(wù)的方式,實現(xiàn)了虛擬觀點文檔的分布式構(gòu)建、計算和應(yīng)用,并提供了可視化的動態(tài)觀點摘要。
本文
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論