Web信息智能抽取技術的研究與實現(xiàn).pdf_第1頁
已閱讀1頁,還剩71頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、隨著我國經(jīng)濟的迅速發(fā)展,國家信息基礎設施建設強度加大加強和人民生活質(zhì)量的提高,網(wǎng)絡已經(jīng)深入人們生活的方方面面,成為工作或生活中不可缺少的一部分,怎樣快速有效的獲取Web上的信息,已經(jīng)成為了一個重要的研究課題。但是網(wǎng)絡上的信息種類繁多、網(wǎng)頁結構形式多變,大多數(shù)網(wǎng)頁上還包含了許多廣告、導航、熱點鏈接等噪音信息,這些問題給研究者帶來了很大的困擾。而目前的信息抽取技術還存在很多不足:如僅能處理一種類型網(wǎng)頁,提取的信息細化程度低,準確率與效率矛盾

2、、人工干預與智能化操作、不支持增量信息處理等問題。這就迫切需要一種全新的信息提取方法來解決這些問題,本課題就是在這種需求下產(chǎn)生的。本文主要采用的是模板化的信息提取算法,先利用規(guī)則生成器識別網(wǎng)頁上的目標實體分隔符,然后由模板生成器把這些分割標記配置到模板中,最后由信息抽取器根據(jù)模板提取該站點的相關信息。具體創(chuàng)新點或關鍵技術如下: 1、通過分析的站點網(wǎng)頁結構,分析網(wǎng)頁結構布局形式和標簽的分布規(guī)律,并結合目前國內(nèi)外的信息抽取技術,發(fā)明

3、了一套可以定義任何網(wǎng)頁結構形式的模板,并設計出了一套模板自動配置方案; 2、設計了信息抽取器:實現(xiàn)了讀取模板,以及根據(jù)模板配置進行信息抽取的方法,并在此過程中增加了信息增量/多頁處理算法:采用增量/多頁算法來解決同一主題的內(nèi)容分布在多個網(wǎng)頁的問題,即需要進行融合計算,以及解決不同時間段,主題網(wǎng)頁內(nèi)容動態(tài)更新的問題,即要進行增量提取;去重處理算法:處理站點間相似或相同主題重復問題; 3、結果的結構化存儲:根據(jù)模板的配置,提

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論