2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩55頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、分類號密級UDC學號桂林電子科技大學碩士學位論文題目題目基于HTML的信息抽取技術研究(英文)(英文)ResearchonInfmationExtractionTechnologyofHTML研究生姓名:林鵬指導教師姓名、職務指導教師姓名、職務:高林高級工程師申請學科門類:工學學科、專科、專業(yè):計算機應用技術提交論文日期:2010年4月6日論文答辯日期:2010年6月12日2010年6月10日摘要–I–摘要隨著信息技術的飛速發(fā)展,瀏覽器

2、技術得到了不斷創(chuàng)新。但是不同瀏覽器之間所帶來的網(wǎng)頁兼容性問題也變得愈發(fā)突出,網(wǎng)頁兼容性問題已經(jīng)成為制約開源軟件發(fā)展的瓶頸。目前幾乎所有的網(wǎng)站都包含大量非兼容性網(wǎng)頁元素,當用戶通過不同瀏覽器訪問這些網(wǎng)站時,將會得到不同的顯示效果。這種非正常顯示嚴重打擊了用戶的使用信心,甚至使部分用戶不再使用開源軟件。本文針對上述問題進行研究,研究的主要內(nèi)容有:(1)在探討Web信息抽取技術的基礎上,根據(jù)Web頁面的特征,分析其結構,提出一種網(wǎng)頁信息抽取的

3、可行性方法——基于HTML樹編輯距離的信息抽取方法。該方法通過考慮HTML標簽表現(xiàn)特性進而改進樹編輯距離。根據(jù)HTML標簽在瀏覽器中所顯示的數(shù)據(jù)對象的權賦予它們相應的不同節(jié)點值;通過兩棵由HTML標簽組成的,對應頁面中數(shù)據(jù)對象構成的帶權節(jié)點樹之間的比較,求得最大映射值來獲得其樣式匹配。實驗表明,該方法比簡單樹匹配方法更高效、更穩(wěn)定。(2)從HTML解析技術入手,結合Web信息抽取技術,設計了一個自主開發(fā)的HTMLWrapper解析器方案

4、,并對它的組成部分詞典、詞法分析器以及語法分析器的設計做了詳細研究。信息抽取詳細方案的設計是本文的核心,其最大特色是抽取規(guī)則的語料庫設計和不同瀏覽器對HTML標簽和屬性支持差異解決方案的設計。該方案的設計和應用可以更好地提取出那些產(chǎn)生兼容性問題的標簽和屬性,并將這些標簽和屬性加以改正。(3)在上述工作的基礎上,本文開發(fā)了相應的原型系統(tǒng)。該系統(tǒng)能夠更好地完成對網(wǎng)頁不兼容信息的抽取和改正,是一款符合HTML4.01規(guī)范的網(wǎng)頁信息抽取和測試系

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論