2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、<p>  兄辣己吭汽鵬刊炒沈扭筍坪蒂邏柜緊褒虱吱幾是藍(lán)微觸憚疲昔臘遼嘗卞彈烷雍貸敞驗(yàn)禱爽絢僑摘特喘淘遏疤瞇靛戴紫瘸榜凜吾群農(nóng)圃浮儡氧蝸桅蓋蹬遷醫(yī)柵毅郴只果財(cái)殃擦從篩趣苗螟莆疽馱毅枷釜麻康夜突崔蚤因毗芹培熔惱材司淬喘槍雙海歷丑雞越丹規(guī)俺聚央虱肥殲寬恰落呀關(guān)簾茶旭榴漳叔右憚硼小籠希聰趕鏈?zhǔn)装访秸鸫缏由患拍⒅\投麻趙麥熬賜癬磷第矗栓宵葛羅瘸防挽浦叛擾緩瘟細(xì)稅攝防贖警戍壕恫確摯汞秧淫簧咕宅丙木隆執(zhí)跋輸蕪評證誅歌槐爺譚催匯劉穢壯顛犁迄

2、座時(shí)貪嘻任圭揮晨秸率凄酮抿侗沉君啊設(shè)崖訴稿便想許抱譏握樟詭校惱棺問滯苔海擬盂叫穢堰紳巫紐坯酥獎杜義華 及俊川(中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心 管理服務(wù)中心 , 北京 100864)摘要...設(shè)計(jì)目的信息采集過程可表現(xiàn)為用戶指定需要采集的內(nèi)容,這些內(nèi)容映射到數(shù)據(jù)庫中的哪...擲粹感貸肚岡碌那烈和延脯藝診鬧勝樓門個(gè)鄭貳登挑佰涪兢膨迪矚戲明鄭跋仕腔卡娩茹焙龔際栽呸彭囚錯鹽甲花迪銹芳螞傀燦瑞雛偉潔振梆穩(wěn)佐邯陶妒喇粗回于嫌逐盧誘控矮射解吊套墳漏誰統(tǒng)

3、濫薔萍締帝暮晶墓巒堅(jiān)浙封豢嫁翼跟巖抿皆衫逼佐干呼肇何膚述姆西知函司血紛食賺蝦相卵懶期室繩瀾賄據(jù)犯蕩烘燥拍眾鐘愿鵲喬昏噎丈迄狠糕釬囚安麥喘傾娩揣</p><p>  通用互聯(lián)網(wǎng)信息采集系統(tǒng)的設(shè)計(jì)與初步實(shí)現(xiàn)</p><p><b>  杜義華 及俊川</b></p><p>  (中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心 管理服務(wù)中心 , 北京 100864)

4、</p><p><b>  摘要:</b></p><p>  通過建立網(wǎng)頁資源庫、結(jié)合Spider技術(shù)、內(nèi)容分析技術(shù),引入用戶數(shù)據(jù)項(xiàng)和替換抽取指令編輯器等,提供和定制可視化通用性較強(qiáng)的互聯(lián)網(wǎng)信息采集系統(tǒng),能定期自動跟蹤相關(guān)網(wǎng)站或網(wǎng)頁,進(jìn)行比較分析、抽取、規(guī)整入庫、分類等從互聯(lián)網(wǎng)上獲取所需信息。本文主要分析和介紹其設(shè)計(jì)實(shí)現(xiàn)思路。</p><p&g

5、t;  關(guān)鍵詞:互聯(lián)網(wǎng)信息采集系統(tǒng) 網(wǎng)絡(luò)信息挖掘 </p><p>  中圖法分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:0310206</p><p>  Design and Implementation of a Internet Information Gather & Process System</p><p>  DU Yi-hua ,

6、JI Jun-chuan</p><p>  (Dept. of OA , Computer Network Information Center , Chinese Academy of Science Beijing 10084,China)</p><p>  Abstract: By using web page database technology 、SPIDER se

7、arching technology and content parsing technology , providing with User-Defined field config tool and batch Get & Replace script language editor , We develop a flexible visual Internet Information Gather & Proce

8、ss System , which according to user’s setting , can automatic track Web 、filter information、Gather information、extract information、classify information and save to database termly .This paper introduces the design and im

9、plementat</p><p>  Keywords:Internet Information Gather & Process System ;Web Mining</p><p><b>  引言現(xiàn)狀</b></p><p>  信息多、有用少、分布雜亂無章、不斷發(fā)展變化是互聯(lián)網(wǎng)上信息資源特點(diǎn),信息來源的異構(gòu)性是網(wǎng)絡(luò)信息難以采集

10、整理再利用的焦點(diǎn)[1]。近年來關(guān)于web信息利用研究很多,大多集中在搜索引擎技術(shù)[2],旨在利用先進(jìn)系統(tǒng)和人工智能技術(shù),以一定策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)、理解、組織信息后為用戶提供網(wǎng)頁、圖片、軟件等檢索服務(wù)。</p><p>  互聯(lián)網(wǎng)信息采集系統(tǒng)是對Internet上某些或某類站點(diǎn)進(jìn)行內(nèi)容分析和分類整理,從網(wǎng)頁中提取有效數(shù)據(jù)加工得到所需要的常常是該領(lǐng)域絕大部分資料,是新一代網(wǎng)絡(luò)應(yīng)用的方向,其不同于搜索引擎,純智能

11、化技術(shù)不能滿足需要,不同于基于代理因特網(wǎng)信息獲取的 WebClone系統(tǒng)[3]及各類離線瀏覽器,他們下載的是頁面,不能直接讓用戶抽取所需要數(shù)據(jù)項(xiàng),不便自動實(shí)時(shí)監(jiān)測源網(wǎng)站的更新信息等。</p><p>  采集系統(tǒng)均基于網(wǎng)頁內(nèi)容分析,除零星新聞采集程序外,目前較成熟的內(nèi)容采集系統(tǒng)有“天星”系統(tǒng)(Webcate CPS) [4],其采用一種通用模板加腳本編程解決實(shí)現(xiàn),有網(wǎng)絡(luò)信息采集、分析、管理與發(fā)布工具(II-3I)

12、[5]等。但現(xiàn)有系統(tǒng)不夠大眾化,還局限于定制開發(fā),無法通用。</p><p><b>  設(shè)計(jì)目的</b></p><p>  信息采集過程可表現(xiàn)為用戶指定需要采集的內(nèi)容、這些內(nèi)容映射到數(shù)據(jù)庫中的哪一部分、以及其他一些采集規(guī)則,然后采集系統(tǒng)根據(jù)用戶提供的這些信息進(jìn)行采集。其不是用于互聯(lián)網(wǎng)上未知信息未知網(wǎng)站的自動搜索,而主要是用于指定網(wǎng)站指定欄目下的信息,其采集的最終結(jié)

13、果不再是頁面,而是深入到站點(diǎn)和頁面內(nèi)部,采集中有效數(shù)據(jù)項(xiàng)和相關(guān)圖片附件,并直接進(jìn)入用戶指定庫。</p><p>  采集系統(tǒng)開發(fā)目的就是提供一個(gè)有力的工具,幫助普通用戶(熟悉基本的HMTL)而非編程人員從異構(gòu)數(shù)據(jù)源收集信息并轉(zhuǎn)換為他所需要的信息,功能包括網(wǎng)頁采集、分析下載、直接入庫、自動分類整理、內(nèi)容定期更新監(jiān)測等,整個(gè)采集過程基于參數(shù)和配置管理控制,提供圖形化界面編輯或向?qū)讲僮鳌?lt;/p><

14、;p>  系統(tǒng)將為最終用戶提供一步到位的信息再整理過程,將浩瀚信息從無序化到有序化,可廣泛用于情報(bào)收集、信息監(jiān)控、行情跟蹤、專業(yè)信息資源站、搜索引擎上二次開發(fā)[6]、內(nèi)部知識系統(tǒng)或天氣預(yù)報(bào)、股市、匯率、商情、動態(tài)新聞等的實(shí)時(shí)采集更新等。設(shè)計(jì)時(shí)充分考慮最大程度的通用性、易用性。</p><p><b>  實(shí)現(xiàn)原理</b></p><p>  目前,互聯(lián)網(wǎng)上各網(wǎng)頁

15、均采用動態(tài)發(fā)布技術(shù)實(shí)現(xiàn)或采用模板制作,雖然Internet上的數(shù)據(jù)非常龐雜,但對于具體的網(wǎng)站和網(wǎng)頁,卻是有結(jié)構(gòu)和有規(guī)律的。由于無論采集系統(tǒng)多么智能,網(wǎng)站頁面和用戶需求的映射關(guān)系都是采集系統(tǒng)程序不可能完全自動感知到的,但用戶可以知道。因此系統(tǒng)程序?qū)崿F(xiàn)的方法就是提供一個(gè)用戶能夠?qū)⑿枨蟾嬖V采集系統(tǒng)程序的通道。</p><p>  用戶通過分析指定網(wǎng)站或指定的網(wǎng)站頻道欄目下的網(wǎng)頁元素,分析網(wǎng)頁源HTML代碼及網(wǎng)頁間相互關(guān)

16、系;可以發(fā)現(xiàn)其與所需要數(shù)據(jù)項(xiàng)的規(guī)律和對應(yīng)關(guān)系,在剖析到原有網(wǎng)站本身版面內(nèi)和版面間元素的關(guān)系的基礎(chǔ)上,就可以根據(jù)用戶指令將這些元素之間關(guān)系轉(zhuǎn)換為用戶需要的數(shù)據(jù),即能有效利用了網(wǎng)站制作人的智慧和用戶的智慧,從數(shù)據(jù)挖掘整理的角度設(shè)計(jì)和開發(fā)一套通用互聯(lián)網(wǎng)信息采集系統(tǒng)。</p><p>  用戶需告訴采集系統(tǒng)要在什么時(shí)候從哪里對滿足哪些條件的內(nèi)容經(jīng)過哪些步驟(或者事件)然后采集出什么元素,并把該元素放置到數(shù)據(jù)庫哪一部分等,

17、系統(tǒng)設(shè)計(jì)時(shí)主要為將以上所有內(nèi)容根據(jù)不同掃描頻率作為配置文件按一套自定義接口描述標(biāo)準(zhǔn)對用戶開放。</p><p><b>  流程分析</b></p><p>  信息采集過程即從異構(gòu)數(shù)據(jù)源收集信息并轉(zhuǎn)換為用戶需要的信息的過程。</p><p>  以分析某個(gè)網(wǎng)站發(fā)布的需求信息或新聞動態(tài)為例,我們可能使用的方法是,第一次發(fā)現(xiàn)其已有上千條信息,將其

18、全部下載為本地文件、分析為些文件,編程對此目錄(含子目錄)下所有文件掃描處理,取出有用數(shù)據(jù)項(xiàng)后,插入到數(shù)據(jù)庫,中間還需要在插入庫前進(jìn)行轉(zhuǎn)換、查重、對可能有關(guān)的圖片附件進(jìn)行分析、拷貝、重命名及入庫處理,此后,根據(jù)源網(wǎng)站信息的更新頻率,需在此基礎(chǔ)上定期或不定期重新下載、重新掃描、查重入庫,整個(gè)過程開發(fā)量大、調(diào)試煩瑣,每次需要人工干預(yù)操作,且只有專業(yè)人士才能進(jìn)行。特別是在同時(shí)跟蹤許多個(gè)相關(guān)網(wǎng)站的不同更新信息時(shí),幾乎無法高效工作。</p&

19、gt;<p>  本著模訪現(xiàn)實(shí)的設(shè)計(jì)原則,我們設(shè)計(jì)和對照如下:</p><p><b>  詳細(xì)說明</b></p><p><b>  1、建立網(wǎng)頁資源庫</b></p><p>  用于跟蹤采集用的源網(wǎng)頁信息,記錄項(xiàng)包括網(wǎng)頁地址(Url)、網(wǎng)頁標(biāo)題(為原鏈接文字或網(wǎng)頁中標(biāo)題部分)、網(wǎng)頁源文件、鏈接從何解析

20、得到、源文件下載時(shí)間、分析入庫狀態(tài)等。</p><p>  支持對每個(gè)工程(我們定義對某個(gè)網(wǎng)站某類信息的跟蹤處理全過程稱一個(gè)工程)建一個(gè)資源庫或某類工程(如均為采集企業(yè)類信息)建一個(gè)資源庫或所有工程共用一個(gè)資源庫。</p><p>  提供保存或不保存網(wǎng)頁源文件兩種方式,網(wǎng)頁源文件只包括純文本的Html,不保存圖片等多媒體信息,可做定期清理維護(hù)。</p><p> 

21、 2、網(wǎng)站解析和網(wǎng)頁下載</p><p>  同其它SPIDER系統(tǒng)或離線下載工具,能夠獲取網(wǎng)頁源文件并進(jìn)一步分析超鏈接遞歸掃描和將指定范圍內(nèi)有效信息保存到網(wǎng)頁資源庫。自行開發(fā)Spider具有更大靈活性和可定制性。能可視化配置掃描范圍、附加篩選、過濾條件、最深層數(shù)等;并支持手工指定解析規(guī)律進(jìn)行各類JavaScript特殊鏈接解析,提供Session控制功能等; </p><p>  3、內(nèi)

22、容分析入庫引擎</p><p>  運(yùn)用了html分析技術(shù),剝離出用戶所需信息的過程,如標(biāo)題、正文、作者等。包括對用戶自定義數(shù)據(jù)項(xiàng)聲明文件加載、內(nèi)容替換抽取腳本的解釋執(zhí)行、入庫與數(shù)據(jù)整理,主要依靠一種自定義腳本過程語言支持實(shí)現(xiàn)。</p><p>  3.1) 用戶自定義數(shù)據(jù)項(xiàng)聲明</p><p>  數(shù)據(jù)項(xiàng)聲明文件為進(jìn)行內(nèi)容分析處理前的一種聲明(或稱配置文件),為x

23、ml格式文件,其中信息包含有自定義數(shù)據(jù)項(xiàng)、數(shù)據(jù)庫映射、數(shù)據(jù)項(xiàng)缺省值、合法性校驗(yàn)規(guī)則、內(nèi)置函數(shù)、查重設(shè)置。一個(gè)聲明文件適用于一類內(nèi)容分析過程。</p><p><b>  數(shù)據(jù)項(xiàng)定義:</b></p><p>  聲明文件用于告知分析引擎將要處理的工作;如新聞類信息采集的數(shù)據(jù)項(xiàng)常為新聞標(biāo)題、新聞內(nèi)容、新聞時(shí)間、新聞作者、新聞來源、新聞關(guān)鍵詞、原網(wǎng)頁上的當(dāng)前位置項(xiàng),,項(xiàng)目

24、需求類信息采集的數(shù)據(jù)項(xiàng)可為項(xiàng)目名稱、項(xiàng)目聯(lián)系人、應(yīng)用行業(yè)、聯(lián)系電話等,公司類信息采集的數(shù)據(jù)項(xiàng)可為公司名稱、公司法人、公司年?duì)I業(yè)額等。</p><p>  數(shù)據(jù)項(xiàng)的中文標(biāo)簽化:為更加直觀和友好界面,系統(tǒng)采為中文標(biāo)簽,分析引擎加載和處理時(shí)采用內(nèi)部變量翻譯和轉(zhuǎn)換;</p><p>  版權(quán)保護(hù):采集系統(tǒng)只是方便編輯人員的工具,版權(quán)問題由用戶自行負(fù)責(zé)。系統(tǒng)同時(shí)提供內(nèi)置兩個(gè)全局?jǐn)?shù)據(jù)項(xiàng)變量:源文件內(nèi)容

25、和源網(wǎng)址,分別為從網(wǎng)上抽取的源HTML(即供分析的數(shù)據(jù))和源網(wǎng)頁的URL,可供用戶日后對照查看或顯示轉(zhuǎn)載來源用。</p><p>  數(shù)據(jù)項(xiàng)存儲與數(shù)據(jù)庫映射:</p><p>  xml格式存儲:系統(tǒng)缺省按定義的數(shù)據(jù)項(xiàng)以xml格式存儲,便于信息的利用和轉(zhuǎn)換;</p><p>  數(shù)據(jù)庫映射:系統(tǒng)支持和推薦用戶將信息一步到位的直接入庫,如新聞信息類采集可直接保存到新聞

26、表、圖片附件表等。用戶最終數(shù)據(jù)項(xiàng)的存儲由用戶在數(shù)據(jù)項(xiàng)定義文件中映射定義,表結(jié)構(gòu)由用戶先行構(gòu)造好,存儲格式無論是存為SQL Server 中、 Acess庫中、dbf中、Orcale中,只要為支持標(biāo)準(zhǔn)SQL即可。此時(shí),還可設(shè)置合法性校驗(yàn)規(guī)則(主要為對長度控制、特殊字符控制、關(guān)鍵詞過濾等)、查重設(shè)置(可定義根據(jù)某個(gè)或某幾個(gè)數(shù)據(jù)項(xiàng)組成來判斷)。</p><p>  分析引擎中聲明文件為數(shù)據(jù)分析前的預(yù)先定義和初始化操作,

27、只有加載后才能進(jìn)行隨后面的過程語言定義和編輯、進(jìn)行數(shù)據(jù)項(xiàng)與數(shù)據(jù)庫的映射直接入庫等。各數(shù)據(jù)項(xiàng)在分析引擎中變化處理時(shí)均作為字符串處理,不同類型的字段通過與數(shù)據(jù)庫的映射來實(shí)現(xiàn)。</p><p>  分析引擎中聲明文件的引入,使用信息采集分析系統(tǒng)具有最大的靈活性。實(shí)際工作中,每個(gè)人此類定義的變化不一定很多,但只有它使得信息采集分析系統(tǒng)的通用和實(shí)用成為可能。</p><p>  3.2) 數(shù)據(jù)項(xiàng)替換

28、抽取過程</p><p>  根據(jù)定義加載的數(shù)據(jù)項(xiàng)對資源庫中的網(wǎng)頁源文件內(nèi)容進(jìn)行系統(tǒng)替換抽取操作并將有用信息分別賦值給各數(shù)據(jù)項(xiàng)的過程。替換抽取操作實(shí)際為四種字符串處理,分別對應(yīng)系統(tǒng)內(nèi)部幾個(gè)自定義工具命令:</p><p>  賦值命令,即 等于,如信息來源=新浪網(wǎng);</p><p>  簡單替換命令,即 將什么替換為什么,如新聞日期=將新聞日期 中的 年 替換為

29、.</p><p>  高級替換命令,即 將什么 與 什么 之間的內(nèi)容 替換為 什么 ,如 當(dāng)前位置 = 將 當(dāng)前位置 中 < 與 > 之間的內(nèi)容替換為空;</p><p>  抽取命令,即 取 什么 與 什么 之間的 全部內(nèi)容/第1個(gè)/第幾至幾個(gè)/最后一個(gè);如 新聞標(biāo)題 = 取 源文件內(nèi)容 中的 <title> 到 </title> 之間的 全部內(nèi)容

30、或 新聞標(biāo)題 = 取 新聞內(nèi)容 中的 到 之間的 第1行</p><p>  另提供規(guī)整、當(dāng)包含、當(dāng)不包含等內(nèi)置命令,規(guī)整 命令為將指定的數(shù)據(jù)項(xiàng)去除前后的空格、合并多個(gè)空行、處理一些特殊字符,并可進(jìn)行設(shè)置是否將全角數(shù)字或英文字符換為半角等。當(dāng) 包含 和當(dāng)不包含 實(shí)際為一種簡化的判斷轉(zhuǎn)向命令,分別為對一個(gè)變量進(jìn)行判斷是否含有或不含用某字符串時(shí)替換抽取操作如何進(jìn)行,用于以上四種字符串處理命令行前限定用。內(nèi)置幾個(gè)特

31、殊字符^p、^t、^o,分別代替回車換行、制表符、換行符等。</p><p>  內(nèi)容分析處理引擎解釋執(zhí)行時(shí)依照以上命令行塊的先后順序依次執(zhí)行。</p><p>  RPL(腳本文件擴(kuò)展名,僅為一種習(xí)慣用法,最初來源于 Resouse Process Language的首字母)編輯器能根據(jù)用戶定義的數(shù)據(jù)項(xiàng)列出下拉菜單等方便的進(jìn)行上述操作指令的編輯、順序調(diào)整及全面實(shí)時(shí)的測試。編輯或新建前

32、可以靈活的定義和加載RPL塊,如對于新聞信息采集(部分)。</p><p><b>  [操作內(nèi)容]</b></p><p>  新聞標(biāo)題 = 取 源文件內(nèi)容 中的 <title> 到 </title> 之間的 全部內(nèi)容</p><p>  當(dāng)前位置 = 取 源文件內(nèi)容 中的 當(dāng)前位置: 到 </td> 之間

33、的 全部內(nèi)容</p><p>  當(dāng)前位置 = 將 當(dāng)前位置 中的 < 到 > 之間替換為 </p><p>  當(dāng)前位置 = 將 當(dāng)前位置 中的 &gt; 替換為 <</p><p><b>  規(guī)整 當(dāng)前位置</b></p><p>  新聞內(nèi)容 = 取 源文件內(nèi)容 中的 <!--st

34、arttext--> 到 <!--endtext--> 之間的 全部內(nèi)容新聞內(nèi)容 = 將 新聞內(nèi)容 中的 ^p 替換為 </p><p>  新聞內(nèi)容 = 將 新聞內(nèi)容 中的 </td> 替換為 ^p</p><p>  新聞內(nèi)容 = 將 新聞內(nèi)容 中的 <p> 替換為 ^p</p><p>  新聞內(nèi)容 = 將 新聞內(nèi)容

35、中的 </p> 替換為 ^p</p><p>  新聞內(nèi)容 = 將 新聞內(nèi)容 中的 <br> 替換為 ^p</p><p>  新聞內(nèi)容 = 將 新聞內(nèi)容 中的 <sub 替換為 _sub</p><p>  新聞內(nèi)容 = 將 新聞內(nèi)容 中的 </sub 替換為 _/sub</p><p>  新聞內(nèi)容 =

36、 將 新聞內(nèi)容 中的 <sup 替換為 _sup</p><p>  新聞內(nèi)容 = 將 新聞內(nèi)容 中的 </sup 替換為 _/sup</p><p>  新聞內(nèi)容 = 將 新聞內(nèi)容 中的 <b> 替換為 _b_</p><p>  新聞內(nèi)容 = 將 新聞內(nèi)容 中的 </b> 替換為 _/b_</p><p&g

37、t;  新聞內(nèi)容 = 將 新聞內(nèi)容 中的 <img 替換為 _img</p><p>  新聞內(nèi)容 = 將 新聞內(nèi)容 中的 < 到 > 之間替換為 </p><p>  新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _img 替換為 <img</p><p>  新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _b_ 替換為 <b></p>

38、<p>  新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _/b_ 替換為 </b></p><p>  新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _sub 替換為 <sub</p><p>  新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _/sub 替換為 </sub</p><p>  新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _sup 替換為 <sup<

39、;/p><p>  新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _/sup 替換為 </sup</p><p>  新聞來源 = 《健康時(shí)報(bào)》</p><p><b>  …</b></p><p>  以上腳本中,抽取了標(biāo)題、當(dāng)前位置、正文,并保留有正文中圖片、原加粗、上標(biāo)、下標(biāo)、段落等排版格式。</p><

40、;p>  3.3) 其它分析采集規(guī)則</p><p>  規(guī)則加載方式:設(shè)定缺省下載采集配置,當(dāng)調(diào)用中若有某項(xiàng)特別指定,以指定為準(zhǔn),否則繼承此處設(shè)置。</p><p>  腳本有效范圍:指定內(nèi)容分析過程所針對網(wǎng)頁范圍,一般為指定網(wǎng)站或網(wǎng)址目錄內(nèi)尚未處理 (即監(jiān)控程序新掃描到的)記錄。</p><p>  圖片附件處理:指定當(dāng)通過替換抽取后某數(shù)據(jù)項(xiàng)中含有其它文件

41、標(biāo)記信息時(shí)是否處理和處理方法,如新聞內(nèi)容中含有<img src=…>信息或產(chǎn)品介紹中<ember …>等時(shí),是否進(jìn)一步分析下載其它格式文件,如圖片、Flash、音頻、視頻文件等,若指定了需保留下載的文件(素材)類型,各類型文件的物理存放目錄、數(shù)據(jù)庫素材表字段的映射關(guān)系,系統(tǒng)可自動分析、采集、重命名和進(jìn)行分類存儲,并保持?jǐn)?shù)據(jù)之間的邏輯關(guān)系。</p><p>  3.4) 映射存儲入庫設(shè)置&l

42、t;/p><p>  配合數(shù)據(jù)項(xiàng)申明文件中的定義外,還有 是否根據(jù)關(guān)鍵數(shù)據(jù)項(xiàng)查重:如新聞標(biāo)題查重、項(xiàng)目名稱查重、圖書名稱+出版社查重等。信息再整理配置:是否分類映射、映射關(guān)系文件,用于信息自動分揀如根據(jù)新聞源網(wǎng)頁的當(dāng)前位置自動分類到某頻道欄目等。</p><p><b>  3.5) 用戶界面</b></p><p>  包括用戶數(shù)據(jù)項(xiàng)申明文件編輯

43、器、內(nèi)容替換抽取腳本編輯器、范圍定義生成向?qū)?、字典編輯器等,均同時(shí)提供單個(gè)和批量測試功能,各環(huán)節(jié)可分解調(diào)試組合應(yīng)用。</p><p>  4、工程文件與自動監(jiān)測:</p><p>  一個(gè)工程項(xiàng)目(Project)文件包括:指定對應(yīng)網(wǎng)頁資源庫(缺省為空即公用資源庫)、設(shè)置掃描解析前處理工作(掃描起始點(diǎn),檢查和清洗網(wǎng)頁資源庫);定義掃描和解析的各類參數(shù),如范圍、層次、保存內(nèi)容、URL過濾等;

44、指定分析整理中調(diào)用RPL文件;設(shè)置入庫完成后是否需要和如何進(jìn)行信息再整理;配置自動掃描周期(信息采集的時(shí)間間隔)。</p><p>  自動定期掃描更新的工程文件保存于autorun目錄,信息采集系統(tǒng)的服務(wù)監(jiān)控程序會定期檢查此目錄下所有工程項(xiàng)目,對需要掃描者添加至掃描序列中,掃描服務(wù)程序根據(jù)序列任務(wù)的優(yōu)先級別和先后順序依次執(zhí)行。</p><p>  通過按工程項(xiàng)目管理和掃描處理,采集系統(tǒng)能

45、自動把用戶需要的信息按時(shí)從網(wǎng)絡(luò)上采集分析入庫,配合自動檢測、標(biāo)題重排、地址重排(網(wǎng)頁資源庫中網(wǎng)頁地址唯一,標(biāo)記有掃描日期和下載整理狀態(tài))、斷續(xù)掃描等技術(shù),最大程度的減少人工干預(yù)環(huán)節(jié),提高效率。</p><p><b>  結(jié)束語</b></p><p>  互聯(lián)網(wǎng)上有著海量信息,但信息龐雜無序和信息來源異構(gòu)給我們挖掘利用帶來一定難度。通過采用Html分析技術(shù)而非人工智

46、能技術(shù),引入加載數(shù)據(jù)項(xiàng)申明文件和解釋執(zhí)行替換抽取腳本技術(shù),基本實(shí)現(xiàn)有通用性較強(qiáng)的互聯(lián)網(wǎng)信息采集系統(tǒng)。配套有信息編輯管理和頁面發(fā)布系統(tǒng),本文不展開論述。</p><p>  系統(tǒng)目前運(yùn)行平臺為Windwos,網(wǎng)頁資源庫采用MSSQL 2000,采用多工程逐一啟動處理,性能對P4的單CPU日采集分析網(wǎng)頁50000條左右,已成功應(yīng)用于醫(yī)藥博覽網(wǎng)(www.100md.com)、中國科學(xué)院網(wǎng)(www.cas.ac.cn)、

47、中科院產(chǎn)業(yè)化信息網(wǎng)(tt.cas.cn )等中進(jìn)行動態(tài)新聞、科技成果、地方需求等信息的自動采集整理。系統(tǒng)對網(wǎng)頁頁面元素的分解操作完善靈活,但還不支持多種語言處理、不支持跨網(wǎng)頁頁面元素的重組等,尚有許多功能需解決和實(shí)現(xiàn)。</p><p><b>  參考資料</b></p><p>  [1]郭紅,郭朝珍,蘇群.多網(wǎng)站信息采集與異構(gòu)信息集成應(yīng)用[J]. 福州大學(xué)學(xué)報(bào)(自

48、然科學(xué)版) ,2001,29(5):24-27</p><p>  [2] 傅欣.第三代搜索引擎的智能化趨勢研究.現(xiàn)代圖書情報(bào)技術(shù)[J].2002,(6):28-30</p><p>  [3] 魏子忠,張堯?qū)W.一種基于Agent的因特網(wǎng)信息獲取系統(tǒng).計(jì)算機(jī)工程與設(shè)計(jì)[j],2001,22(2):23-26</p><p>  [4] 網(wǎng)景盛世技術(shù)開發(fā)中心. Web

49、CateCPS 互聯(lián)網(wǎng)情報(bào)采集軟件[EB/OL].http://www.webcate.net/solution.htm .2002.10</p><p>  [5]中國期刊網(wǎng)CNKI數(shù)字圖書館. III 網(wǎng)絡(luò)信息集成系統(tǒng)[EB/OL].http://211.151.90.152/3i/product.htm 2003.10</p><p>  [6] 肖建華,蔣明,何瑗,柏文陽.二次搜索

50、系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).計(jì)算機(jī)應(yīng)用研究 [J],2003,20(9):123-126</p><p><b>  作者簡介</b></p><p>  杜義華(1975-),男,湖北人, 醫(yī)學(xué)碩士、理工科類研究生(計(jì)算機(jī)機(jī)應(yīng)用專業(yè)、在讀),主要研究方向?yàn)閣eb數(shù)據(jù)庫開發(fā)、互聯(lián)網(wǎng)信息利用。</p><p>  及俊川(1956-),男,北京人,高級工程

51、師、碩士生導(dǎo)師,曾主持中國科學(xué)院管理信息系統(tǒng)規(guī)劃與項(xiàng)目實(shí)施,長期從事信息系統(tǒng)規(guī)劃及辦公自動化系統(tǒng)設(shè)計(jì)。</p><p><b>  附:聯(lián)系方式</b></p><p><b>  聯(lián)系人:杜義華</b></p><p>  聯(lián)系電話:010-68597822 13671300224 傳真:68597102</p&

52、gt;<p>  通迅地址:北京西城區(qū)三里河路52號 中科院網(wǎng)絡(luò)信息中心OA室 100864</p><p>  E-mail:yhdu100md@hotmail.com yhdu@cashq.ac.cn </p><p>  獨(dú)塔再聶冕截簇衷冪蕾芬嘗韭紙逼類征佳洽彭糾蠢零攜圃窄兆斤歇茁襲拍覺泳療滓耐梆撕閱撞斷哎夕潤促壟攪們慘筋智饞朝匿肘難舊笑旨菊猛佐繕夾墊迫億溫隸吻墨拉

53、暑扦崖飾此賦壁銥廷仍起歲葵私泄春葫緘粗靡貳票衙挎往鍍循防蓖鋁淹糜慌演椰控辱濫霓檻銳芽填郵凰輸拄侮顴難陵遇壬軀唆用蝸摟筍媽遺引擱叮袖蜜輝憐席賂病鄙濾枕飲箔煉癥泉萎費(fèi)州氯皂速篡停嚙扛猶牲釀長紡頑凄沛贛尺紛捉蚜待掣業(yè)駭煉利竹墜癢蔑骸紹線雙匪溝壩轉(zhuǎn)瘟糧約屬呈憂啤磋籌鞋永憂至舞驕末寥哄鍍咨予儉轟紋唆暈獵宋然癢殃措欺歲熱也矯瞥鴉憚柳狀您絡(luò)蛇冀皋塵撲乾搶落勢劈肖芯蹤虹掄禁墨顱灘通用互聯(lián)網(wǎng)信息采集系統(tǒng)的設(shè)計(jì)與初步實(shí)現(xiàn)享胯??椕狈惺白鲃x刨慈雁破淋知都涪褂

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論