版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著社交媒體的日益普及,互聯(lián)網(wǎng)用戶越來(lái)越習(xí)慣于在社交媒體中評(píng)論話題、表達(dá)觀點(diǎn)。社交媒體用戶規(guī)模龐大,觀點(diǎn)涉及話題廣泛,使其成為包含大量針對(duì)流行話題的用戶觀點(diǎn)的寶貴資源庫(kù)。然而用戶表達(dá)觀點(diǎn)的方式多種多樣,使得社會(huì)媒體中的觀點(diǎn)文本呈現(xiàn)出碎片化、噪音多、非結(jié)構(gòu)化等特征。因此,在社交媒體中通過人工方式分析總結(jié)用戶觀點(diǎn)非常困難,如何借助計(jì)算的手段自動(dòng)地分析并總結(jié)出社交媒體全體用戶的觀點(diǎn)信息成為一個(gè)重要挑戰(zhàn)。本文主要研究社交媒體用戶觀點(diǎn)的自動(dòng)分析問
2、題(包括觀點(diǎn)挖掘和整合集成),希望能對(duì)用戶在社交媒體上就所關(guān)注話題發(fā)表的大量觀點(diǎn)進(jìn)行建模,并基于此模型進(jìn)一步對(duì)社交媒體中用戶行為進(jìn)行分析。
為了對(duì)問題進(jìn)行系統(tǒng)地研究,本文將問題分解為觀點(diǎn)分析與基于觀點(diǎn)的行為分析,其中觀點(diǎn)分析又由情感知識(shí)的抽取、觀點(diǎn)文本情感極性分類、用戶觀點(diǎn)集成三部分組成。本文的主要貢獻(xiàn)如下:
?中文情感詞典的抽取和構(gòu)建:目前常見的情感詞典基本都是英文詞典,這些詞典在英文觀點(diǎn)文本識(shí)別、極性分類等任務(wù)中
3、起到了重要作用,是進(jìn)行觀點(diǎn)分析的基礎(chǔ)。中文情感詞典抽取和構(gòu)建方法研究相對(duì)較少,還沒有形成比較全面可靠的情感詞典??咳斯?biāo)注形成的情感詞典對(duì)時(shí)間和人力要求較高,但是詞語(yǔ)覆蓋度偏低,因此需要研究自動(dòng)構(gòu)建情感詞典的方法。本文根據(jù)不同語(yǔ)言間表達(dá)情感知識(shí)的詞匯間對(duì)應(yīng)性,使用HowNet語(yǔ)義知識(shí)庫(kù)轉(zhuǎn)化英文情感詞典的情感知識(shí),抽取對(duì)應(yīng)的中文情感詞匯并計(jì)算情感極性值,自動(dòng)構(gòu)建了中文情感詞典SentiHowNet。為了提高詞典的覆蓋度以及領(lǐng)域適應(yīng)性,本文
4、分析驗(yàn)證了基于語(yǔ)料資源中連詞語(yǔ)言規(guī)則和上下文統(tǒng)計(jì)特征的情感詞典擴(kuò)展方法,并提出了混合方法對(duì)SentiHowNet在領(lǐng)域語(yǔ)料內(nèi)進(jìn)行擴(kuò)展。使用本文方法得到的中文情感詞典可以自動(dòng)構(gòu)建無(wú)需人工標(biāo)注,與現(xiàn)有中文情感詞典相比,覆蓋度和領(lǐng)域適應(yīng)性更好。
?基于特征空間劃分的情感極性分類:對(duì)于情感極性分類問題來(lái)說,不同情感詞表達(dá)情感的作用范圍、使用語(yǔ)境存在一定的差別,有些詞語(yǔ)能在不同領(lǐng)域和語(yǔ)境中表達(dá)不變的情感極性,而有些詞語(yǔ)只有在特定的領(lǐng)域和
5、語(yǔ)境中才能表達(dá)特定的情感極性。因此,本文提出了將特征空間劃分為領(lǐng)域獨(dú)立和領(lǐng)域依賴兩部分的情感極性分類方法,該方法分別在兩部分特征空間上訓(xùn)練分類器,然后將兩個(gè)分類器組合在一個(gè)框架中形成一個(gè)更強(qiáng)的情感極性分類器,框架從現(xiàn)成的成語(yǔ)詞典和遠(yuǎn)程監(jiān)督數(shù)據(jù)資源開始,使用自舉式迭代機(jī)器學(xué)習(xí)方法,可以在無(wú)需標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練情況下達(dá)到有監(jiān)督機(jī)器學(xué)習(xí)方法的性能。
?用戶觀點(diǎn)的集成建模:社交媒體中用戶產(chǎn)生的內(nèi)容往往是短小而又分散的非結(jié)構(gòu)化信息,用戶在
6、這些非結(jié)構(gòu)化的短文本中表達(dá)的觀點(diǎn)也呈現(xiàn)出碎片化的特點(diǎn)。為了能夠全面準(zhǔn)確地了解用戶的觀點(diǎn),本文提出了用戶主觀模型的概念,將用戶產(chǎn)生內(nèi)容中所關(guān)注的話題以及用戶針對(duì)話題的觀點(diǎn)組合在一起進(jìn)行建模,并將觀點(diǎn)按照話題的不同方面進(jìn)行整合集成,在此基礎(chǔ)上提出一種新的可擴(kuò)展觀點(diǎn)表示方法,將同一話題的觀點(diǎn)表示為在一個(gè)可擴(kuò)展的情感值空間的分布,這種表示能夠表達(dá)出用戶多視角下更詳細(xì)的觀點(diǎn)信息。
?用戶交互行為分析:作為用戶主觀模型的直接應(yīng)用,本文對(duì)用
7、戶在社交媒體中信息傳播行為的主觀動(dòng)機(jī)進(jìn)行建模分析。針對(duì)Twitter中用戶轉(zhuǎn)發(fā)信息的三種常見動(dòng)機(jī),即對(duì)內(nèi)容的興趣、社交的需要、對(duì)流行的興趣三種動(dòng)機(jī)通過用戶主觀模型進(jìn)行定量分析。使用三個(gè)主觀相似性計(jì)算方法進(jìn)行度量。通過對(duì)轉(zhuǎn)發(fā)行為的分析發(fā)現(xiàn),三種主觀相似性與轉(zhuǎn)發(fā)行為都具有相關(guān)性,能夠作為轉(zhuǎn)發(fā)行為預(yù)測(cè)的有效特征,并能顯著提高現(xiàn)有預(yù)測(cè)模型的性能。
在對(duì)以上四個(gè)觀點(diǎn)分析與應(yīng)用研究任務(wù)中,本文側(cè)重于使用通用的魯棒性好的無(wú)監(jiān)督或弱監(jiān)督方法,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 社交媒體中的信息檢索與傳播分析.pdf
- 社交媒體中的信息檢索與傳播分析
- 社交媒體信息異化的案例分析.pdf
- 社交媒體信息異化的案例分析
- 基于RSSBus的社交媒體信息收集分析系統(tǒng).pdf
- 社交媒體環(huán)境下的檔案信息服務(wù)分析
- 社交媒體環(huán)境下的檔案信息服務(wù)分析.pdf
- 社交媒體文本情感分析.pdf
- 基于社交媒體的95后用戶信息行為調(diào)研分析.pdf
- 社交媒體文本情感分析
- 社交媒體信息質(zhì)量的評(píng)估研究.pdf
- 含地理位置信息的社交媒體挖掘及應(yīng)用.pdf
- 社交媒體信息質(zhì)量的評(píng)估研究
- 實(shí)時(shí)社交媒體分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 社交媒體數(shù)據(jù)分析平臺(tái)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于社交媒體的檔案信息服務(wù)研究.pdf
- 復(fù)雜網(wǎng)絡(luò)鏈路分析與社交媒體預(yù)測(cè).pdf
- 情感標(biāo)簽在社交媒體文本分析中的應(yīng)用.pdf
- 基于社交媒體的檔案信息服務(wù)研究
- 社交媒體時(shí)代信息的碎片化傳播
評(píng)論
0/150
提交評(píng)論