2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩79頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、目前,在國家大力發(fā)展職業(yè)教育的形式下,高等職業(yè)教育發(fā)展迅猛,辦學規(guī)模不斷擴大。隨著各高等職業(yè)院校管理制度的健全和改革力度的深化,在考慮不斷提高教學管理水平、質量和效率的同時,依靠數字化校園建設的重要性和必要性顯得尤為重要,它是高等職業(yè)教育信息化管理發(fā)展的必由之路。因此各高校加快了信息化建設的步伐,校園網內容在不斷充實和豐富的同時,也在很大程度上提高了學校的工作效率和辦學質量。但是,伴隨校園網軟硬件設備的投入和建設,以共享學校信息資源為目

2、的的校園網呈現出爆炸性的增長態(tài)勢,而每個用戶真正感興趣的信息非常有限,僅僅是其中的滄海一粟。無論是校園網內或是網外的用戶在浩瀚的校園網網海中找尋到有價值的信息顯得越發(fā)困難。為此,面向校園網的搜索引擎系統應運而生。
   在校園網信息高速膨脹的今天,搜索引擎已經成為了非常重要的校園網導航工具??紤]到校園網中所有網頁都是基于學校域名下鏈接地址的擴展地址,搜索引擎在通過網絡爬蟲來完成校園網中信息資源的搜集工作時,正是利用校園網中信息資

3、源鏈接地址所具備的這一特有特征,完成對網絡爬蟲運行環(huán)境的調試、爬行種子的定義和類型的配置。針對校園網資源的更新速度制定出網絡爬蟲合理的爬取周期,不斷發(fā)現和搜集校園網內新的網站和網頁,利用開源Java庫HTMLParser所提供的API完成對網絡爬蟲搜集的校園網網頁特定文本信息的提取工作。在此基礎上,使用開源的Lucene引擎架構和中文分詞組件JE—analysis對此文本信息做進一步的理解、提取、組織和處理,形成索引文件最終為用戶提供檢

4、索服務以達到信息導航的目的。由于該搜索引擎系統是針對學校校園網具體需求而開發(fā)的,因此能更好的滿足用戶面向校園網信息搜索的需要。
   面向校園網搜索引擎的出現,彌補了用戶在使用通用搜索引擎檢索過程中,所得結果覆蓋面廣,存在著重復以及垃圾信息的特點,為用戶提供了更為精準的個性化服務。
   結合當前對校園網情況的分析,本文主要完成了如下工作:
   (1)在深入了解搜索引擎運行原理的基礎上,確定了本系統具體實現需要

5、用到的各個開源組件及其相關技術。
   (2)以廣東某高校校園網的實際需求為出發(fā)點,完成了需求分析說明文檔。
   (3)依據設計的目標和原則設計出系統的總體結構,明確了系統的業(yè)務流程。
   (4)通過定制和擴展Heritrix網絡爬蟲實現在校園網內的資源爬取工作。
   (5)設計并使用各種API工具對網絡爬蟲收集回來的信息進行抽取和處理。
   (6)在深入研究Lucene及其相關技術的基礎

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論