基于PAT和MLN的Web數據抽取研究.pdf_第1頁
已閱讀1頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著互聯(lián)網及其應用的快速發(fā)展,互聯(lián)網上的數據量急劇增長,網頁上的數據已經成為一個巨大的數據庫,其中包含著大量潛在的有用信息,如何從中抽取出用戶感興趣的數據已經成為人們關注的焦點。web數據抽取的主要任務就是從這些半結構化的網頁中抽取出用戶感興趣的數據,并將其轉換成結構化形式,為后續(xù)應用提供數據基礎。
   web數據抽取吸引了眾多研究者,并開發(fā)出了各種各樣的web數據抽取系統(tǒng)。這些系統(tǒng)采用的方法和技術種類繁多,其采用的主要方法有

2、:自定義開發(fā)語言、自然語言處理、機器學習、模式挖掘和本體技術等。這些系統(tǒng)各有所長,但是往往只能針對某些特定類型的網頁進行抽取,具有很大的局限性。比如,一些基于模式挖掘的方法只能從結構清晰的網頁中抽取標簽之間內容,不能從標簽之間的文本中抽取數據。
   通常目標網頁中包含有大量目標數據信息,因此在形式上存在連續(xù)出現(xiàn)的模式,并且該模式整體上的形式變化很小。根據這一特點,本文提出了一個基于PAT和馬爾科夫邏輯網的數據抽取方法。其主要思

3、想是,利用PAT算法發(fā)現(xiàn)頻繁模式的能力得到潛在模式,并選出最優(yōu)的抽取模式;利用這些模式將目標數據所在的數據塊抽取出來,在此基礎上運用馬爾科夫邏輯網進行更加精細的抽取。
   本文所提出的方法的具體過程是,首先忽略網頁中所有的文本修飾標簽,只保留定義文檔結構的塊標簽,并將整個網頁轉換成token串。每個token都有一個相同長度的二進制編碼,按照這個對應關系將之前的token串轉換成一個二進制字符串,得到該網頁的半無限長字符串。此

4、時利用PAT算法,構建出該網頁的PAT樹,從中發(fā)掘出頻率較高的潛在模式,并按照一定的篩選規(guī)則,篩選出候選模式。在用戶標注訓練樣例的同時,從候選模式中確定出用戶感興趣的數據信息所在區(qū)域的最優(yōu)匹配模式--目標模式。運用目標模式,將網頁中所有匹配的數據區(qū)域抽取出來,得到目標數據塊。在數據塊的基礎上,運用馬爾科夫邏輯網對數據進行抽取。即根據數據塊中目標數據的結構特征,通過構建原子謂詞及一階邏輯公式,構建出馬爾科夫邏輯網,并在大量的實例中進行權重

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論