版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、因特網(wǎng)的快速發(fā)展帶動(dòng)了時(shí)代的變遷。Web資源中蘊(yùn)含著大量有價(jià)值的信息,作為一種新的資源,已經(jīng)變得越來越重要。Web挖掘研究的主要任務(wù)就是如何從這么多的Web信息中高效地獲取所需知識(shí)。然而,傳統(tǒng)的通用搜索引擎對(duì)整個(gè)互聯(lián)網(wǎng)缺乏針對(duì)性,搜索會(huì)造成大量無關(guān)的鏈接和信息,使得所得的結(jié)果效用低下。在這種情況下,面向特定領(lǐng)域的主題搜索引擎便應(yīng)運(yùn)而生,它很好地解決了通用搜索引擎存在的弊端,其核心就是主題網(wǎng)頁抓取技術(shù)。對(duì)于該技術(shù)的研究已經(jīng)成為了當(dāng)前的熱點(diǎn)
2、和發(fā)展趨勢(shì)。
本文首先簡(jiǎn)單介紹了Web挖掘技術(shù)和搜索引擎技術(shù)的研究背景及國(guó)內(nèi)外發(fā)展現(xiàn)狀,分析了兩者之間存在的共同點(diǎn),并為這兩者技術(shù)上的相互結(jié)合做了一定的可行性分析。然后介紹了主題搜索引擎的發(fā)展?fàn)顩r和重要作用,并主要以主題搜索引擎的主題網(wǎng)頁抓取策略作為研究?jī)?nèi)容,把提高主題網(wǎng)頁抓取的查全率和查準(zhǔn)率作為出發(fā)點(diǎn),詳細(xì)分析了現(xiàn)有的主題網(wǎng)頁抓取方法及其優(yōu)缺點(diǎn)。接著從主題搜索爬蟲的Best-First搜索算法中所存在的缺點(diǎn)著手,結(jié)合非貪婪策
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 垂直搜索引擎的主題網(wǎng)頁抓取策略研究.pdf
- 基于web挖掘的聚類搜索引擎研究
- 基于網(wǎng)頁挖掘的搜索引擎若干技術(shù)的研究.pdf
- Web挖掘中搜索引擎的研究.pdf
- 基于WEB挖掘的聚類搜索引擎研究.pdf
- Web搜索引擎的緩存策略研究.pdf
- 基于Web挖掘的紡織專業(yè)搜索引擎設(shè)計(jì).pdf
- 網(wǎng)頁搜索引擎的使用
- 基于Web的主題搜索引擎的研究與設(shè)計(jì).pdf
- 基于主題的搜索引擎研究.pdf
- 基于網(wǎng)頁分塊的主題搜索引擎的研究與實(shí)現(xiàn).pdf
- 基于網(wǎng)頁主題相關(guān)度的搜索引擎排序算法研究.pdf
- 主題搜索引擎爬行策略的研究.pdf
- 基于WEB的搜索引擎算法研究.pdf
- 基于網(wǎng)頁自動(dòng)分類的搜索引擎研究.pdf
- 基于lucene的主題搜索引擎研究
- 基于主題的Deep Web搜索引擎研究與探索.pdf
- 基于搜索引擎網(wǎng)頁排序算法研究.pdf
- 基于搜索引擎的信息挖掘.pdf
- 基于Web的資源搜索引擎.pdf
評(píng)論
0/150
提交評(píng)論