基于時(shí)序文本挖掘的新聞內(nèi)容理解與推薦技術(shù)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩165頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、互聯(lián)網(wǎng)的誕生及發(fā)展,大大促進(jìn)了信息的傳播。作為信息傳播的重要手段,網(wǎng)絡(luò)新聞在互聯(lián)網(wǎng)上扮演著非常重要的角色,已經(jīng)成為網(wǎng)民最常使用的網(wǎng)絡(luò)應(yīng)用之一。網(wǎng)絡(luò)新聞是網(wǎng)絡(luò)上發(fā)布的“新近發(fā)生的事實(shí)的報(bào)道”,它較傳統(tǒng)新聞傳播媒介在時(shí)效性、容量、豐富性、易交互性、易檢索性,以及多媒體化的呈現(xiàn)方式等方面都有巨大的優(yōu)勢(shì),給人們的生活帶來(lái)了巨大的便利和幫助。當(dāng)然,海量的網(wǎng)絡(luò)新聞也給人們帶來(lái)了信息過(guò)載問(wèn)題。
   為了更好地滿足各類(lèi)網(wǎng)絡(luò)用戶的需求,提升網(wǎng)絡(luò)

2、用戶的新聞獲取體驗(yàn),研究網(wǎng)絡(luò)新聞內(nèi)容的自動(dòng)理解及推薦技術(shù)具有重要的意義。所謂新聞內(nèi)容理解,是指從大量的新聞數(shù)據(jù)中抽取出事先未知的、可理解的、最終可用的知識(shí),同時(shí)利用這些知識(shí)更好地組織新聞以幫助用戶更好地獲取這些信息。而新聞推薦技術(shù)則通過(guò)分析網(wǎng)絡(luò)用戶的各類(lèi)新聞閱讀行為,獲得用戶的喜好信息,結(jié)合對(duì)新聞內(nèi)容的理解,向用戶推薦其可能感興趣的新聞。上述問(wèn)題處理的大多是時(shí)序文本,涉及到時(shí)序文本挖掘技術(shù)的諸多方面。本文基于時(shí)序文本挖掘的相關(guān)技術(shù),研究

3、新聞內(nèi)容理解和推薦涉及的多個(gè)問(wèn)題,并提出了解決方案,具體的工作如下:
   本文首先針對(duì)時(shí)序新聞數(shù)據(jù)集的事件檢測(cè)問(wèn)題,提出了一種基于突發(fā)特征分析的新聞突發(fā)事件檢測(cè)方法。引入特征軌跡將構(gòu)成時(shí)序新聞數(shù)據(jù)集的特征表示為時(shí)間序列;提出了一種特征軌跡小波域表示方法,并引入多尺度突發(fā)分析算法檢測(cè)突發(fā)特征及突發(fā)跨度;提出了一種基于近鄰傳播聚類(lèi)算法的突發(fā)事件檢測(cè)算法,將特征突發(fā)模式的相似性、特征所在新聞的重合度、以及特征能量(表示特征的突發(fā)強(qiáng)度

4、)作為近鄰傳播算法的輸入,將突發(fā)特征聚類(lèi)以構(gòu)成事件,并引入事件能量衡量事件的突發(fā)水平。
   針對(duì)時(shí)序新聞的在線突發(fā)事件檢測(cè)問(wèn)題,提出了一種在線的新聞突發(fā)事件檢測(cè)及其進(jìn)化分析方法。引入一種多尺度滑動(dòng)窗口實(shí)時(shí)監(jiān)控特征軌跡,并利用在線多尺度突發(fā)特征檢測(cè)方法檢測(cè)出當(dāng)前時(shí)間窗口中具有不同突發(fā)跨度的突發(fā)特征;引入一個(gè)指數(shù)型的衰減因子衰減特征軌跡,并基于此計(jì)算突發(fā)特征之間的關(guān)聯(lián)度;同樣利用近鄰傳播聚類(lèi)算法將突發(fā)特征聚類(lèi)以檢測(cè)出突發(fā)事件,利用

5、能量衡量事件的突發(fā)水平;最后,提出了一種基于余弦相似度的信息檢索方法發(fā)現(xiàn)事件在時(shí)間軸上的進(jìn)化過(guò)程。
   針對(duì)時(shí)序新聞突發(fā)事件檢測(cè)算法在實(shí)時(shí)性、準(zhǔn)確率等方面存在的問(wèn)題,進(jìn)一步提出了一種基于假設(shè)檢驗(yàn)的在線突發(fā)事件檢測(cè)方法。提出了一種基于隨機(jī)過(guò)程的特征數(shù)據(jù)流表示方法,并運(yùn)用分布擬合檢驗(yàn)及左邊檢驗(yàn)檢測(cè)突發(fā)特征;分析突發(fā)特征的相關(guān)性,引入進(jìn)化譜聚類(lèi)算法將相關(guān)性較高的突發(fā)特征聚類(lèi)以構(gòu)成事件。算法具備更高的實(shí)時(shí)性,并能更準(zhǔn)確地檢測(cè)某些突發(fā)特

6、征及事件。
   為了幫助人們更好地了解時(shí)序新聞,提出了一種時(shí)序新聞主題分解與摘要方法。在時(shí)序新聞的關(guān)鍵詞-句子關(guān)聯(lián)矩陣上應(yīng)用非負(fù)矩陣分解(Non-negativeMatrix Factorization,即NMF)獲得子主題信息;通過(guò)分析非負(fù)矩陣分解獲得的編碼向量(encoding vector),發(fā)現(xiàn)屬于每個(gè)子主題的事件,并為這些子主題及其包含的事件產(chǎn)生摘要;基于編碼矩陣對(duì)句子進(jìn)行排序,選擇屬于每個(gè)子主題的排名最高的若干句子

7、作為該時(shí)序新聞的摘要。
   針對(duì)視障及老年人群的網(wǎng)絡(luò)新聞獲取需求,提出并實(shí)現(xiàn)了一個(gè)個(gè)性化的有聲網(wǎng)絡(luò)新聞推薦及綜合挖掘平臺(tái)。提出了一種個(gè)性化的有聲網(wǎng)絡(luò)新聞推薦的體系架構(gòu),支持各類(lèi)終端通過(guò)HTTP協(xié)議獲取個(gè)性化的有聲新聞。該架構(gòu)支持兩個(gè)層面的個(gè)性化,在提供新聞?lì)l道自適應(yīng)導(dǎo)航的同時(shí),能夠根據(jù)用戶對(duì)于多類(lèi)主題的興趣自動(dòng)推送相關(guān)的新聞。最后設(shè)計(jì)并實(shí)現(xiàn)了該系統(tǒng)(簡(jiǎn)稱(chēng)網(wǎng)絡(luò)搜音機(jī)服務(wù)系統(tǒng))。除實(shí)現(xiàn)上述功能外,基于前述新聞內(nèi)容理解的工作,系統(tǒng)還

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論