版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著互聯(lián)網(wǎng)知識(shí)數(shù)據(jù)的爆炸式增長(zhǎng)以及內(nèi)容呈現(xiàn)形式的多樣化,特別是智能內(nèi)容識(shí)別、提取和分析等數(shù)據(jù)處理方面的要求使得網(wǎng)頁(yè)元數(shù)據(jù)采集和處理變得異常復(fù)雜。傳統(tǒng)的信息采集服務(wù)需要人工分析頁(yè)面的DOM樹(shù)結(jié)構(gòu),并不能直接抽取到具有特定要求的網(wǎng)頁(yè)元數(shù)據(jù),無(wú)法滿足人們對(duì)特定數(shù)據(jù)的需求。因此,如何自動(dòng)識(shí)別并準(zhǔn)確定位需要采集網(wǎng)頁(yè)元數(shù)據(jù)的位置變得尤為重要。
本文針對(duì)視頻網(wǎng)頁(yè)信息采集提出一種基于視覺(jué)塊識(shí)別的網(wǎng)頁(yè)元數(shù)據(jù)提取方法,以解決自動(dòng)識(shí)別定位并提取網(wǎng)頁(yè)
2、元數(shù)據(jù)的問(wèn)題。論文的主要工作如下:
(1)對(duì)網(wǎng)頁(yè)信息提取技術(shù)及視覺(jué)特征進(jìn)行分析。通過(guò)研究基于DOM樹(shù)、視覺(jué)特征、文本特征三種網(wǎng)頁(yè)信息提取技術(shù),對(duì)比總結(jié)這三種技術(shù)的優(yōu)缺點(diǎn),結(jié)合本課題需要提取的視頻網(wǎng)頁(yè)信息的特點(diǎn)以及網(wǎng)絡(luò)爬蟲(chóng)技術(shù),總結(jié)用戶的視覺(jué)規(guī)律設(shè)計(jì)了一種基于視覺(jué)特征的網(wǎng)頁(yè)元數(shù)據(jù)提取方法。
(2)頁(yè)面視覺(jué)塊劃分。由于當(dāng)前主流的網(wǎng)頁(yè)設(shè)計(jì)均采用DIV+CSS布局代替?zhèn)鹘y(tǒng)以
評(píng)論
0/150
提交評(píng)論