版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、近年來,基于視覺特征的網(wǎng)頁分割技術(shù)越來越受到人們的關(guān)注,它模擬了人們在視覺感知角度上對于一個網(wǎng)頁結(jié)構(gòu)的理解,此技術(shù)對于信息檢索、信息提取、網(wǎng)頁自動分類等網(wǎng)絡(luò)應(yīng)用技術(shù)將起到極大的推動作用。網(wǎng)頁自動分類問題是網(wǎng)頁分割技術(shù)的重要應(yīng)用之一。作為一個具有代表性的網(wǎng)頁分類問題,中文網(wǎng)頁分類一直是眾多學(xué)者研究對象。本文的研究主要著眼于以下幾個方面: 首先,將傳統(tǒng)的基于文檔對象模型(Document Object Model,DOM)樹的網(wǎng)頁表
2、示方法與基于視覺特征(vision based)的網(wǎng)頁表示法進(jìn)行了全面的比較。基于視覺特征的網(wǎng)頁表示法在進(jìn)行網(wǎng)頁結(jié)構(gòu)分析時采用的是一種自上而下、不依賴于標(biāo)簽樹(tag-tree)的方式,即與編寫網(wǎng)頁的HTML文檔的表達(dá)方式無關(guān)。它充分利用了網(wǎng)頁中可視化的信息從而得到基于視覺特征的網(wǎng)頁結(jié)構(gòu),較好地解決了網(wǎng)頁的DOM樹結(jié)構(gòu)與語義結(jié)構(gòu)的兼容問題。利用可視化的分割符將網(wǎng)頁劃分成分塊并抽象成層次結(jié)構(gòu),這種層次化的語義結(jié)構(gòu)在一定程度上與人們的直觀感
3、知是相吻合的。 其次,在基于視覺特征的網(wǎng)頁分割算法的基礎(chǔ)上,提出了一種根據(jù)分塊重要度進(jìn)行中文網(wǎng)頁分類的方法。利用基于視覺特征的網(wǎng)頁分割法將中文網(wǎng)頁分割后,由于網(wǎng)頁中“噪聲”信息的存在,所得到的分塊并不都是具有同等權(quán)值(重要度)的,只有權(quán)值較高的分塊才能在語義上反映出網(wǎng)頁的主題,利用這些高權(quán)值分塊進(jìn)行中文網(wǎng)頁分類可以獲得更好的分類質(zhì)量。在分類系統(tǒng)中,查全率(Recall)和查準(zhǔn)率(Preclslon)反映了分類質(zhì)量的兩個不同方面,
4、兩者必須綜合考慮,表示為F1測試值,本文實驗用F1值來衡量最終的分類質(zhì)量。 在本文實驗中,將傳統(tǒng)的全文網(wǎng)頁分類方法和基于視覺特征的利用分塊重要度的網(wǎng)頁分類法進(jìn)行了比較。實驗結(jié)果表明利用分塊重要度的分類法由于綜合考慮了網(wǎng)頁層次結(jié)構(gòu)和語義機構(gòu),其分類質(zhì)量為最佳。實驗中的分類器選擇的是支持向量機(Support Vector Machine,SVM)分類器和K-近鄰法(K-Nearest Neighbour,KNN)分類器。基于視覺特
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于網(wǎng)頁特征的中文網(wǎng)頁自動分類問題研究.pdf
- 中文網(wǎng)頁分類特征提取方法研究.pdf
- 基于網(wǎng)頁特征的中文網(wǎng)頁自動分類問題研究
- 基于SVM的中文網(wǎng)頁分類方法的研究.pdf
- 基于覆蓋的中文網(wǎng)頁分類研究.pdf
- 基于體裁的中文網(wǎng)頁分類.pdf
- 中文網(wǎng)頁分類特征提取算法探討.pdf
- 基于代表樣本的中文網(wǎng)頁分類研究.pdf
- 中文網(wǎng)頁層次分類研究.pdf
- 中文網(wǎng)頁形式自動分類.pdf
- 基于VSM的中文網(wǎng)頁分類特征選擇技術(shù)研究與實現(xiàn).pdf
- 基于形式概念分析的中文網(wǎng)頁分類研究.pdf
- 基于KNN及相關(guān)鏈接的中文網(wǎng)頁分類研究.pdf
- 基于SVM的中文網(wǎng)頁自動分類技術(shù)研究.pdf
- 基于樸素貝葉斯的中文網(wǎng)頁分類研究.pdf
- 基于支持向量機的中文網(wǎng)頁分類的研究.pdf
- 中文網(wǎng)頁自動分類技術(shù)研究.pdf
- 中文網(wǎng)頁自動分類的研究及其應(yīng)用.pdf
- 基于特征碼的大規(guī)模中文網(wǎng)頁并行去重方法.pdf
- 智能搜索中的中文網(wǎng)頁分類研究.pdf
評論
0/150
提交評論