

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨著我國互聯(lián)網(wǎng)普及率的持續(xù)攀升,網(wǎng)絡(luò)新聞作為一個(gè)較新的信息傳播方式日益為人們所關(guān)注,網(wǎng)絡(luò)新聞信息帶來的多種問題也相繼凸顯,如參差不齊的新聞報(bào)道比比皆是。面對海量的網(wǎng)絡(luò)新聞信息,如何輔助人們快速了解新聞內(nèi)容、獲知最近一段時(shí)間發(fā)生的影響力較大的熱點(diǎn)新聞、接受個(gè)性化新聞信息以及集中閱讀某類新聞內(nèi)容,節(jié)省瀏覽時(shí)間,已經(jīng)成為當(dāng)今研究的一個(gè)熱點(diǎn)。復(fù)雜網(wǎng)絡(luò)作為對復(fù)雜系統(tǒng)研究的一個(gè)新方法,逐漸為學(xué)者們所熟知和認(rèn)可,通過復(fù)雜網(wǎng)絡(luò)在網(wǎng)絡(luò)新聞信息處理的深入研
2、究,能為凈化網(wǎng)絡(luò)環(huán)境、減少通信資源與用戶時(shí)間的巨大浪費(fèi)提供有效手段,有著重要的研究意義。
本文對網(wǎng)絡(luò)信息處理的數(shù)據(jù)源獲取、低層處理和高層分析等過程進(jìn)行了系統(tǒng)的深入研究,并采用復(fù)雜網(wǎng)絡(luò)相關(guān)理論作為研究手段,分析和驗(yàn)證了其可行性與有效性,主要研究工作如下:
實(shí)驗(yàn)平臺方面:本文擬實(shí)現(xiàn)一個(gè)自動化的智能新聞信息處理系統(tǒng),網(wǎng)絡(luò)新聞抓取、信息抽取、關(guān)鍵詞生成、新聞網(wǎng)頁聚類及后續(xù)的研究成果等能一次配置,依次自動執(zhí)行。本文在綜合考慮各
3、編程語言的優(yōu)缺點(diǎn)基礎(chǔ)上,選擇以處理網(wǎng)絡(luò)問題見長的java作為本文研究的編程語言,所有算法如復(fù)雜網(wǎng)絡(luò)建模、網(wǎng)絡(luò)特征值計(jì)算、社團(tuán)發(fā)現(xiàn)算法等都由java及其數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)。只是,在分析實(shí)驗(yàn)結(jié)果時(shí),以Matlab和Pajek等輔助實(shí)現(xiàn)圖形結(jié)果顯示和可視化界面生成。在充分分析相關(guān)理論基礎(chǔ)上,由java開發(fā)實(shí)現(xiàn)的實(shí)驗(yàn)平臺,為復(fù)雜網(wǎng)絡(luò)進(jìn)一步在網(wǎng)絡(luò)信息技術(shù)中的應(yīng)用研究提供了有效工具。
新聞網(wǎng)頁采集方面:在深入研究網(wǎng)絡(luò)爬蟲原理及Heritrix框
4、架的基礎(chǔ)上,改進(jìn)實(shí)現(xiàn)了一個(gè)智能網(wǎng)絡(luò)爬蟲,通過該爬蟲可以指定從特定的網(wǎng)站、特定的時(shí)間段抓取指定的網(wǎng)絡(luò)信息(如網(wǎng)頁、視頻、圖像等),為下一步網(wǎng)絡(luò)新聞關(guān)鍵詞的提取、新聞網(wǎng)頁的聚類以及輿情發(fā)現(xiàn)與監(jiān)控等提供必要的數(shù)據(jù)支持。
新聞網(wǎng)頁內(nèi)容提取及預(yù)處理方面:在深入分析與研究現(xiàn)有信息抽取方法的基礎(chǔ)上,本文選擇基于Wrapper的信息抽取方法,構(gòu)造了一系列的分裝器程序庫,對由爬蟲爬取的新浪、網(wǎng)易、洞口黨建網(wǎng)和西南交通大學(xué)新聞網(wǎng)等的新聞網(wǎng)頁信息能
5、進(jìn)行精確解析,獲得如新聞內(nèi)容、標(biāo)題、發(fā)表時(shí)間、來源等信息,并實(shí)現(xiàn)了中文分詞、詞性標(biāo)注等預(yù)處理工作,為本文后續(xù)的網(wǎng)絡(luò)新聞內(nèi)容復(fù)雜網(wǎng)絡(luò)的構(gòu)建提供了必要前提。
新聞網(wǎng)頁關(guān)鍵詞提取方面:在分析和研究復(fù)雜網(wǎng)絡(luò)建模方法的基礎(chǔ)上,本文用已經(jīng)分詞的新聞內(nèi)容信息構(gòu)建復(fù)雜網(wǎng)絡(luò),以新聞中出現(xiàn)的詞作為節(jié)點(diǎn),本文提出以詞的詞性、出現(xiàn)位置等作為節(jié)點(diǎn)的權(quán)重,以兩個(gè)鄰接詞同時(shí)出現(xiàn)構(gòu)造網(wǎng)絡(luò)的邊,改進(jìn)構(gòu)建了一個(gè)基于節(jié)點(diǎn)權(quán)重的復(fù)雜網(wǎng)絡(luò)。并通過該網(wǎng)絡(luò)的節(jié)點(diǎn)權(quán)重、節(jié)點(diǎn)
6、的度、節(jié)點(diǎn)的聚類系數(shù)及中心介數(shù)等復(fù)雜網(wǎng)絡(luò)統(tǒng)計(jì)參數(shù)的綜合應(yīng)用,排序獲得網(wǎng)頁新聞內(nèi)容的前N個(gè)關(guān)鍵詞。通過關(guān)鍵詞抽取實(shí)驗(yàn)效果的比較,驗(yàn)證了改進(jìn)的基于節(jié)點(diǎn)權(quán)重的復(fù)雜網(wǎng)絡(luò)對網(wǎng)絡(luò)新聞內(nèi)容關(guān)鍵詞提取有較大改善。
新聞網(wǎng)頁聚類分析方面:在分析了文本挖掘的一般處理過程,及數(shù)據(jù)挖掘聚類算法的基礎(chǔ)上,本文提出了用前面實(shí)現(xiàn)的抽取網(wǎng)頁新聞的關(guān)鍵詞為降維手段,對爬取的新聞內(nèi)容文檔進(jìn)行降維,統(tǒng)計(jì)降維后的各個(gè)文檔的相似程度,以這些新聞文檔為節(jié)點(diǎn),以文檔相似程
7、度為邊,構(gòu)建由網(wǎng)頁新聞文檔組成的復(fù)雜網(wǎng)絡(luò)。通過實(shí)現(xiàn)并改進(jìn)復(fù)雜網(wǎng)絡(luò)社團(tuán)劃分算法,對比實(shí)現(xiàn)的傳統(tǒng)數(shù)據(jù)挖掘中的層次聚類算法和K-Means算法,指出它們之間的區(qū)別與聯(lián)系;并將改進(jìn)的基于電壓譜的社團(tuán)劃分算法應(yīng)用于該復(fù)雜網(wǎng)絡(luò),獲得了社團(tuán)劃分結(jié)果,實(shí)現(xiàn)了網(wǎng)頁聚類。實(shí)驗(yàn)結(jié)果表明,該改進(jìn)算法在新聞網(wǎng)頁復(fù)雜網(wǎng)絡(luò)中能正確劃分各節(jié)點(diǎn),從而實(shí)現(xiàn)對網(wǎng)頁新聞的聚類。這為網(wǎng)站聚類、不良網(wǎng)站的自動識別、縮小維度發(fā)現(xiàn)熱點(diǎn)新聞、增加維度鑒定重復(fù)文章等研究工作提供了全新的研
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 動態(tài)圖示信息在網(wǎng)絡(luò)新聞綜述中的應(yīng)用研究.pdf
- 動態(tài)圖示信息在網(wǎng)絡(luò)新聞綜述中的應(yīng)用研究
- 指紋信息處理及其在網(wǎng)絡(luò)身份認(rèn)證中的應(yīng)用研究.pdf
- 基于Web挖掘的教育信息處理在網(wǎng)絡(luò)課程中的應(yīng)用研究.pdf
- Web數(shù)據(jù)挖掘及其在網(wǎng)絡(luò)新聞文本數(shù)據(jù)中的應(yīng)用.pdf
- Web數(shù)據(jù)挖掘、信息采集技術(shù)研究及在網(wǎng)絡(luò)新聞自動抓取中的應(yīng)用.pdf
- 混沌在網(wǎng)絡(luò)信息安全中的應(yīng)用研究.pdf
- 神經(jīng)網(wǎng)絡(luò)優(yōu)化方法及其在信息處理中的應(yīng)用研究.pdf
- 自組織神經(jīng)網(wǎng)絡(luò)在信息處理中的應(yīng)用研究.pdf
- 網(wǎng)絡(luò)新聞的“二次消費(fèi)”——談網(wǎng)絡(luò)新聞?wù)显诿襟w傳播中的應(yīng)用
- 網(wǎng)絡(luò)新聞的“二次消費(fèi)”——談網(wǎng)絡(luò)新聞?wù)显诿襟w傳播中的應(yīng)用.pdf
- 鏈接關(guān)系在網(wǎng)絡(luò)信息評價(jià)中的應(yīng)用研究.pdf
- 小波變換在網(wǎng)絡(luò)信息安全中的應(yīng)用研究.pdf
- 人際語法隱喻在網(wǎng)絡(luò)英語經(jīng)濟(jì)新聞中的應(yīng)用研究.pdf
- 混沌神經(jīng)網(wǎng)絡(luò)的智能信息處理方法與應(yīng)用研究.pdf
- 網(wǎng)絡(luò)新聞采集研究.pdf
- Mashup在網(wǎng)絡(luò)學(xué)習(xí)中的應(yīng)用研究.pdf
- 網(wǎng)絡(luò)新聞編輯研究.pdf
- 網(wǎng)絡(luò)教學(xué)資源在網(wǎng)絡(luò)課程開發(fā)中的應(yīng)用研究.pdf
- 網(wǎng)絡(luò)信息計(jì)量指標(biāo)在網(wǎng)站評價(jià)中的應(yīng)用研究.pdf
評論
0/150
提交評論