版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、自上世紀(jì)50年代世界上第一臺(tái)計(jì)算機(jī)問世以來,尤其是最近幾十年隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,英特網(wǎng)上來自全球領(lǐng)域的數(shù)據(jù)呈現(xiàn)指數(shù)型的增長(zhǎng)。我們的日常生活也早已和這些海量的數(shù)據(jù)密切相關(guān)?;ヂ?lián)網(wǎng)上的數(shù)據(jù)當(dāng)然主要以Web數(shù)據(jù)為主要載體。但是由于受到web固有半結(jié)構(gòu)限制再加上網(wǎng)頁(yè)隨處可見的與主題信息毫不相干的廣告等噪聲信息,這樣使得我們對(duì)于自己感興趣的信息難以從海量的web數(shù)據(jù)中獲取并利用。于是研究如何準(zhǔn)確方便的從海量的信息中提取人們關(guān)心的目標(biāo)信息數(shù)據(jù)
2、并且結(jié)構(gòu)化存儲(chǔ)起來變得越來越重要。
目前這方面的研究已成為國(guó)內(nèi)外學(xué)者研究熱點(diǎn)之一,基本上多數(shù)的研究都是在HTML標(biāo)簽的解析基礎(chǔ)上基于網(wǎng)頁(yè)DOM樹結(jié)構(gòu)或者視覺樹,然后通過一些包裝器的設(shè)計(jì)等方法進(jìn)行人工或者半人工也有自動(dòng)化的提取技術(shù),很多研究也取得了很好的效果。本文的研究也是建立在DOM樹的結(jié)構(gòu)基礎(chǔ)上,針對(duì)列表型頁(yè)面的數(shù)據(jù)提取做了詳細(xì)的研究。提取結(jié)構(gòu)特征值,通過對(duì)特征值的處理引入了中介數(shù)學(xué)理論。
在定位目標(biāo)數(shù)據(jù)區(qū)域的算法
3、研究中,本文首先在基于對(duì)HTML解析成DOM文檔樹的基礎(chǔ)上進(jìn)行了優(yōu)化處理。并且提出了“基于XPath的葉子節(jié)點(diǎn)路徑改進(jìn)算法”該算法輸出DOM文檔樹葉子節(jié)點(diǎn)一個(gè)路徑。此路徑結(jié)構(gòu)是后續(xù)的工作的可行性至關(guān)重要的基礎(chǔ)。在此基礎(chǔ)上把中介數(shù)學(xué)理論系統(tǒng)(MMTD)引入并且針對(duì)DOM樹的結(jié)構(gòu)特征提出了“基于MMTD目標(biāo)數(shù)據(jù)區(qū)域定位算法(DL_MMTD)”,這個(gè)對(duì)模糊世界進(jìn)行量化處理的數(shù)學(xué)方法被用在計(jì)算機(jī)科學(xué)的多個(gè)領(lǐng)域,尤其是模糊集處理方面。但是本文首次
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于維基百科的Web網(wǎng)頁(yè)數(shù)據(jù)質(zhì)量評(píng)估系統(tǒng).pdf
- 基于網(wǎng)頁(yè)結(jié)構(gòu)的Web數(shù)據(jù)抽取方法研究.pdf
- 基于個(gè)人網(wǎng)頁(yè)數(shù)據(jù)挖掘模型的研究與構(gòu)建.pdf
- 基于頁(yè)面分塊的網(wǎng)頁(yè)內(nèi)容提取的研究與實(shí)現(xiàn).pdf
- 基于HTML網(wǎng)頁(yè)的Web信息提取研究.pdf
- 基于數(shù)據(jù)挖掘的Web權(quán)威頁(yè)面搜索.pdf
- 網(wǎng)頁(yè)搜索器中網(wǎng)頁(yè)數(shù)據(jù)維護(hù)算法的研究與改進(jìn).pdf
- 基于模板的Web頁(yè)面信息提取技術(shù)研究.pdf
- Web頁(yè)面結(jié)構(gòu)化數(shù)據(jù)抽取的研究與實(shí)現(xiàn).pdf
- 基于網(wǎng)頁(yè)結(jié)構(gòu)聚類的Web信息提取技術(shù)研究.pdf
- 網(wǎng)頁(yè)數(shù)據(jù)多層語(yǔ)義抽取技術(shù)研究.pdf
- 基于頁(yè)面主體提取的WEB信息抽取技術(shù)研究.pdf
- 網(wǎng)頁(yè)數(shù)據(jù)采集和還原系統(tǒng)設(shè)計(jì).pdf
- Deep Web頁(yè)面結(jié)構(gòu)分析與核心內(nèi)容提取研究.pdf
- Web頁(yè)面語(yǔ)義信息提取方法的研究.pdf
- 基于網(wǎng)站結(jié)構(gòu)分析頁(yè)面信息提取的方法研究.pdf
- Web頁(yè)面中結(jié)構(gòu)化數(shù)據(jù)抽取的實(shí)現(xiàn)與應(yīng)用.pdf
- asp與sql網(wǎng)頁(yè)數(shù)據(jù)庫(kù)程序設(shè)計(jì)
- 多頁(yè)面特殊網(wǎng)頁(yè)文字提取與合并技術(shù)研究.pdf
- 基于本體的Web頁(yè)面結(jié)構(gòu)化信息抽取.pdf
評(píng)論
0/150
提交評(píng)論