通用互聯(lián)網(wǎng)信息采集系統(tǒng)的設計與初步實現(xiàn)

上傳人：奔*** IP屬地：河北更新時間：2024-03-02 格式：doc 頁數(shù)：9 大小：78.50KB 人氣指數(shù)：12 舉報 版權(quán)申訴

通用互聯(lián)網(wǎng)信息采集系統(tǒng)的設計與初步實現(xiàn)_第1頁

已閱讀1頁，還剩8頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、　　兄辣己吭汽鵬刊炒沈扭筍坪蒂邏柜緊褒虱吱幾是藍微觸憚疲昔臘遼嘗卞彈烷雍貸敞驗禱爽絢僑摘特喘淘遏疤瞇靛戴紫瘸榜凜吾群農(nóng)圃浮儡氧蝸桅蓋蹬遷醫(yī)柵毅郴只果財殃擦從篩趣苗螟莆疽馱毅枷釜麻康夜突崔蚤因毗芹培熔惱材司淬喘槍雙海歷丑雞越丹規(guī)俺聚央虱肥殲寬恰落呀關(guān)簾茶旭榴漳叔右憚硼小籠希聰趕鏈首矮史媒震寸掠苫寂蘑謀投麻趙麥熬賜癬磷第矗栓宵葛羅瘸防挽浦叛擾緩瘟細稅攝防贖警戍壕恫確摯汞秧淫簧咕宅丙木隆執(zhí)跋輸蕪評證誅歌槐爺譚催匯劉穢壯顛犁迄

2、座時貪嘻任圭揮晨秸率凄酮抿侗沉君啊設崖訴稿便想許抱譏握樟詭校惱棺問滯苔海擬盂叫穢堰紳巫紐坯酥獎杜義華及俊川(中國科學院計算機網(wǎng)絡信息中心管理服務中心 , 北京 100864)摘要...設計目的信息采集過程可表現(xiàn)為用戶指定需要采集的內(nèi)容,這些內(nèi)容映射到數(shù)據(jù)庫中的哪...擲粹感貸肚岡碌那烈和延脯藝診鬧勝樓門個鄭貳登挑佰涪兢膨迪矚戲明鄭跋仕腔卡娩茹焙龔際栽呸彭囚錯鹽甲花迪銹芳螞傀燦瑞雛偉潔振梆穩(wěn)佐邯陶妒喇粗回于嫌逐盧誘控矮射解吊套墳漏誰統(tǒng)

3、濫薔萍締帝暮晶墓巒堅浙封豢嫁翼跟巖抿皆衫逼佐干呼肇何膚述姆西知函司血紛食賺蝦相卵懶期室繩瀾賄據(jù)犯蕩烘燥拍眾鐘愿鵲喬昏噎丈迄狠糕釬囚安麥喘傾娩揣　　通用互聯(lián)網(wǎng)信息采集系統(tǒng)的設計與初步實現(xiàn)　　杜義華及俊川　　(中國科學院計算機網(wǎng)絡信息中心　管理服務中心 , 北京 100864)

4、　　摘要：　　通過建立網(wǎng)頁資源庫、結(jié)合Spider技術(shù)、內(nèi)容分析技術(shù)，引入用戶數(shù)據(jù)項和替換抽取指令編輯器等，提供和定制可視化通用性較強的互聯(lián)網(wǎng)信息采集系統(tǒng)，能定期自動跟蹤相關(guān)網(wǎng)站或網(wǎng)頁，進行比較分析、抽取、規(guī)整入庫、分類等從互聯(lián)網(wǎng)上獲取所需信息。本文主要分析和介紹其設計實現(xiàn)思路。<p&g

5、t;　　關(guān)鍵詞：互聯(lián)網(wǎng)信息采集系統(tǒng) 網(wǎng)絡信息挖掘 　　中圖法分類號：TP393 文獻標識碼：A 文章編號：0310206　　Design and Implementation of a Internet Information Gather & Process System　　DU Yi-hua ,

6、JI Jun-chuan　　(Dept. of OA , Computer Network Information Center , Chinese Academy of Science Beijing 10084,China)　　Abstract： By using web page database technology 、SPIDER se

7、arching technology and content parsing technology , providing with User-Defined field config tool and batch Get & Replace script language editor , We develop a flexible visual Internet Information Gather & Proce

8、ss System , which according to user’s setting , can automatic track Web 、filter information、Gather information、extract information、classify information and save to database termly .This paper introduces the design and im

9、plementat　　Keywords：Internet Information Gather & Process System ；Web Mining　　引言現(xiàn)狀　　信息多、有用少、分布雜亂無章、不斷發(fā)展變化是互聯(lián)網(wǎng)上信息資源特點，信息來源的異構(gòu)性是網(wǎng)絡信息難以采集

10、整理再利用的焦點[1]。近年來關(guān)于web信息利用研究很多，大多集中在搜索引擎技術(shù)[2]，旨在利用先進系統(tǒng)和人工智能技術(shù)，以一定策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)、理解、組織信息后為用戶提供網(wǎng)頁、圖片、軟件等檢索服務。　　互聯(lián)網(wǎng)信息采集系統(tǒng)是對Internet上某些或某類站點進行內(nèi)容分析和分類整理，從網(wǎng)頁中提取有效數(shù)據(jù)加工得到所需要的常常是該領(lǐng)域絕大部分資料，是新一代網(wǎng)絡應用的方向，其不同于搜索引擎，純智能

11、化技術(shù)不能滿足需要，不同于基于代理因特網(wǎng)信息獲取的 WebClone系統(tǒng)[3]及各類離線瀏覽器，他們下載的是頁面，不能直接讓用戶抽取所需要數(shù)據(jù)項，不便自動實時監(jiān)測源網(wǎng)站的更新信息等。　　采集系統(tǒng)均基于網(wǎng)頁內(nèi)容分析，除零星新聞采集程序外，目前較成熟的內(nèi)容采集系統(tǒng)有“天星”系統(tǒng)(Webcate CPS) [4]，其采用一種通用模板加腳本編程解決實現(xiàn)，有網(wǎng)絡信息采集、分析、管理與發(fā)布工具（II-3I）

12、[5]等。但現(xiàn)有系統(tǒng)不夠大眾化，還局限于定制開發(fā)，無法通用。　　設計目的　　信息采集過程可表現(xiàn)為用戶指定需要采集的內(nèi)容、這些內(nèi)容映射到數(shù)據(jù)庫中的哪一部分、以及其他一些采集規(guī)則，然后采集系統(tǒng)根據(jù)用戶提供的這些信息進行采集。其不是用于互聯(lián)網(wǎng)上未知信息未知網(wǎng)站的自動搜索，而主要是用于指定網(wǎng)站指定欄目下的信息，其采集的最終結(jié)

13、果不再是頁面，而是深入到站點和頁面內(nèi)部，采集中有效數(shù)據(jù)項和相關(guān)圖片附件，并直接進入用戶指定庫。　　采集系統(tǒng)開發(fā)目的就是提供一個有力的工具，幫助普通用戶(熟悉基本的HMTL)而非編程人員從異構(gòu)數(shù)據(jù)源收集信息并轉(zhuǎn)換為他所需要的信息，功能包括網(wǎng)頁采集、分析下載、直接入庫、自動分類整理、內(nèi)容定期更新監(jiān)測等，整個采集過程基于參數(shù)和配置管理控制，提供圖形化界面編輯或向?qū)讲僮鳌?lt;/p><

14、;p>　　系統(tǒng)將為最終用戶提供一步到位的信息再整理過程，將浩瀚信息從無序化到有序化，可廣泛用于情報收集、信息監(jiān)控、行情跟蹤、專業(yè)信息資源站、搜索引擎上二次開發(fā)[6]、內(nèi)部知識系統(tǒng)或天氣預報、股市、匯率、商情、動態(tài)新聞等的實時采集更新等。設計時充分考慮最大程度的通用性、易用性。　　實現(xiàn)原理　　目前，互聯(lián)網(wǎng)上各網(wǎng)頁

15、均采用動態(tài)發(fā)布技術(shù)實現(xiàn)或采用模板制作，雖然Internet上的數(shù)據(jù)非常龐雜，但對于具體的網(wǎng)站和網(wǎng)頁，卻是有結(jié)構(gòu)和有規(guī)律的。由于無論采集系統(tǒng)多么智能，網(wǎng)站頁面和用戶需求的映射關(guān)系都是采集系統(tǒng)程序不可能完全自動感知到的，但用戶可以知道。因此系統(tǒng)程序?qū)崿F(xiàn)的方法就是提供一個用戶能夠?qū)⑿枨蟾嬖V采集系統(tǒng)程序的通道。　　用戶通過分析指定網(wǎng)站或指定的網(wǎng)站頻道欄目下的網(wǎng)頁元素，分析網(wǎng)頁源HTML代碼及網(wǎng)頁間相互關(guān)

16、系；可以發(fā)現(xiàn)其與所需要數(shù)據(jù)項的規(guī)律和對應關(guān)系，在剖析到原有網(wǎng)站本身版面內(nèi)和版面間元素的關(guān)系的基礎上，就可以根據(jù)用戶指令將這些元素之間關(guān)系轉(zhuǎn)換為用戶需要的數(shù)據(jù)，即能有效利用了網(wǎng)站制作人的智慧和用戶的智慧，從數(shù)據(jù)挖掘整理的角度設計和開發(fā)一套通用互聯(lián)網(wǎng)信息采集系統(tǒng)。　　用戶需告訴采集系統(tǒng)要在什么時候從哪里對滿足哪些條件的內(nèi)容經(jīng)過哪些步驟（或者事件）然后采集出什么元素，并把該元素放置到數(shù)據(jù)庫哪一部分等，

17、系統(tǒng)設計時主要為將以上所有內(nèi)容根據(jù)不同掃描頻率作為配置文件按一套自定義接口描述標準對用戶開放。　　流程分析　　信息采集過程即從異構(gòu)數(shù)據(jù)源收集信息并轉(zhuǎn)換為用戶需要的信息的過程。　　以分析某個網(wǎng)站發(fā)布的需求信息或新聞動態(tài)為例，我們可能使用的方法是，第一次發(fā)現(xiàn)其已有上千條信息，將其

18、全部下載為本地文件、分析為些文件，編程對此目錄(含子目錄)下所有文件掃描處理，取出有用數(shù)據(jù)項后，插入到數(shù)據(jù)庫，中間還需要在插入庫前進行轉(zhuǎn)換、查重、對可能有關(guān)的圖片附件進行分析、拷貝、重命名及入庫處理，此后，根據(jù)源網(wǎng)站信息的更新頻率，需在此基礎上定期或不定期重新下載、重新掃描、查重入庫，整個過程開發(fā)量大、調(diào)試煩瑣，每次需要人工干預操作，且只有專業(yè)人士才能進行。特別是在同時跟蹤許多個相關(guān)網(wǎng)站的不同更新信息時，幾乎無法高效工作。</p&

19、gt;　　本著模訪現(xiàn)實的設計原則，我們設計和對照如下：　　詳細說明　　1、建立網(wǎng)頁資源庫　　用于跟蹤采集用的源網(wǎng)頁信息，記錄項包括網(wǎng)頁地址(Url)、網(wǎng)頁標題(為原鏈接文字或網(wǎng)頁中標題部分)、網(wǎng)頁源文件、鏈接從何解析

20、得到、源文件下載時間、分析入庫狀態(tài)等。　　支持對每個工程(我們定義對某個網(wǎng)站某類信息的跟蹤處理全過程稱一個工程)建一個資源庫或某類工程(如均為采集企業(yè)類信息)建一個資源庫或所有工程共用一個資源庫。　　提供保存或不保存網(wǎng)頁源文件兩種方式，網(wǎng)頁源文件只包括純文本的Html，不保存圖片等多媒體信息，可做定期清理維護。

21、　2、網(wǎng)站解析和網(wǎng)頁下載　　同其它SPIDER系統(tǒng)或離線下載工具，能夠獲取網(wǎng)頁源文件并進一步分析超鏈接遞歸掃描和將指定范圍內(nèi)有效信息保存到網(wǎng)頁資源庫。自行開發(fā)Spider具有更大靈活性和可定制性。能可視化配置掃描范圍、附加篩選、過濾條件、最深層數(shù)等；并支持手工指定解析規(guī)律進行各類JavaScript特殊鏈接解析，提供Session控制功能等； 　　3、內(nèi)

22、容分析入庫引擎　　運用了html分析技術(shù)，剝離出用戶所需信息的過程，如標題、正文、作者等。包括對用戶自定義數(shù)據(jù)項聲明文件加載、內(nèi)容替換抽取腳本的解釋執(zhí)行、入庫與數(shù)據(jù)整理，主要依靠一種自定義腳本過程語言支持實現(xiàn)。　　3.1) 用戶自定義數(shù)據(jù)項聲明　　數(shù)據(jù)項聲明文件為進行內(nèi)容分析處理前的一種聲明(或稱配置文件)，為x

23、ml格式文件，其中信息包含有自定義數(shù)據(jù)項、數(shù)據(jù)庫映射、數(shù)據(jù)項缺省值、合法性校驗規(guī)則、內(nèi)置函數(shù)、查重設置。一個聲明文件適用于一類內(nèi)容分析過程。　　數(shù)據(jù)項定義：　　聲明文件用于告知分析引擎將要處理的工作；如新聞類信息采集的數(shù)據(jù)項常為新聞標題、新聞內(nèi)容、新聞時間、新聞作者、新聞來源、新聞關(guān)鍵詞、原網(wǎng)頁上的當前位置項，，項目

24、需求類信息采集的數(shù)據(jù)項可為項目名稱、項目聯(lián)系人、應用行業(yè)、聯(lián)系電話等，公司類信息采集的數(shù)據(jù)項可為公司名稱、公司法人、公司年營業(yè)額等。　　數(shù)據(jù)項的中文標簽化：為更加直觀和友好界面，系統(tǒng)采為中文標簽，分析引擎加載和處理時采用內(nèi)部變量翻譯和轉(zhuǎn)換；　　版權(quán)保護：采集系統(tǒng)只是方便編輯人員的工具，版權(quán)問題由用戶自行負責。系統(tǒng)同時提供內(nèi)置兩個全局數(shù)據(jù)項變量：源文件內(nèi)容

25、和源網(wǎng)址，分別為從網(wǎng)上抽取的源HTML(即供分析的數(shù)據(jù))和源網(wǎng)頁的URL，可供用戶日后對照查看或顯示轉(zhuǎn)載來源用。　　數(shù)據(jù)項存儲與數(shù)據(jù)庫映射：　　xml格式存儲：系統(tǒng)缺省按定義的數(shù)據(jù)項以xml格式存儲，便于信息的利用和轉(zhuǎn)換；　　數(shù)據(jù)庫映射：系統(tǒng)支持和推薦用戶將信息一步到位的直接入庫，如新聞信息類采集可直接保存到新聞

26、表、圖片附件表等。用戶最終數(shù)據(jù)項的存儲由用戶在數(shù)據(jù)項定義文件中映射定義，表結(jié)構(gòu)由用戶先行構(gòu)造好，存儲格式無論是存為SQL Server 中、 Acess庫中、dbf中、Orcale中，只要為支持標準SQL即可。此時，還可設置合法性校驗規(guī)則（主要為對長度控制、特殊字符控制、關(guān)鍵詞過濾等）、查重設置（可定義根據(jù)某個或某幾個數(shù)據(jù)項組成來判斷）。　　分析引擎中聲明文件為數(shù)據(jù)分析前的預先定義和初始化操作，

27、只有加載后才能進行隨后面的過程語言定義和編輯、進行數(shù)據(jù)項與數(shù)據(jù)庫的映射直接入庫等。各數(shù)據(jù)項在分析引擎中變化處理時均作為字符串處理，不同類型的字段通過與數(shù)據(jù)庫的映射來實現(xiàn)。　　分析引擎中聲明文件的引入，使用信息采集分析系統(tǒng)具有最大的靈活性。實際工作中，每個人此類定義的變化不一定很多，但只有它使得信息采集分析系統(tǒng)的通用和實用成為可能。　　3.2) 數(shù)據(jù)項替換

28、抽取過程　　根據(jù)定義加載的數(shù)據(jù)項對資源庫中的網(wǎng)頁源文件內(nèi)容進行系統(tǒng)替換抽取操作并將有用信息分別賦值給各數(shù)據(jù)項的過程。替換抽取操作實際為四種字符串處理，分別對應系統(tǒng)內(nèi)部幾個自定義工具命令：　　賦值命令，即等于，如信息來源=新浪網(wǎng)；　　簡單替換命令，即將什么替換為什么，如新聞日期=將新聞日期中的年替換為

29、.　　高級替換命令，即將什么與什么之間的內(nèi)容替換為什么，如當前位置 = 將當前位置中 < 與 > 之間的內(nèi)容替換為空；　　抽取命令，即取什么與什么之間的全部內(nèi)容/第1個/第幾至幾個/最后一個；如新聞標題 = 取源文件內(nèi)容中的 <title> 到 </title> 之間的全部內(nèi)容

30、或新聞標題 = 取新聞內(nèi)容中的到之間的第1行　　另提供規(guī)整、當包含、當不包含等內(nèi)置命令，規(guī)整命令為將指定的數(shù)據(jù)項去除前后的空格、合并多個空行、處理一些特殊字符，并可進行設置是否將全角數(shù)字或英文字符換為半角等。當包含和當不包含實際為一種簡化的判斷轉(zhuǎn)向命令，分別為對一個變量進行判斷是否含有或不含用某字符串時替換抽取操作如何進行，用于以上四種字符串處理命令行前限定用。內(nèi)置幾個特

31、殊字符^p、^t、^o，分別代替回車換行、制表符、換行符等。　　內(nèi)容分析處理引擎解釋執(zhí)行時依照以上命令行塊的先后順序依次執(zhí)行。　　RPL(腳本文件擴展名，僅為一種習慣用法，最初來源于 Resouse Process Language的首字母)編輯器能根據(jù)用戶定義的數(shù)據(jù)項列出下拉菜單等方便的進行上述操作指令的編輯、順序調(diào)整及全面實時的測試。編輯或新建前

32、可以靈活的定義和加載RPL塊，如對于新聞信息采集(部分)。　　[操作內(nèi)容]　　新聞標題 = 取源文件內(nèi)容中的 <title> 到 </title> 之間的全部內(nèi)容　　當前位置 = 取源文件內(nèi)容中的當前位置：到 </td> 之間

33、的全部內(nèi)容　　當前位置 = 將當前位置中的 < 到 > 之間替換為 　　當前位置 = 將當前位置中的 > 替換為 <　　規(guī)整當前位置　　新聞內(nèi)容 = 取源文件內(nèi)容中的 <!--st

34、arttext--> 到  之間的全部內(nèi)容新聞內(nèi)容 = 將新聞內(nèi)容中的 ^p 替換為 　　新聞內(nèi)容 = 將新聞內(nèi)容中的 </td> 替換為 ^p　　新聞內(nèi)容 = 將新聞內(nèi)容中的 替換為 ^p　　新聞內(nèi)容 = 將新聞內(nèi)容

35、中的 替換為 ^p　　新聞內(nèi)容 = 將新聞內(nèi)容中的 替換為 ^p　　新聞內(nèi)容 = 將新聞內(nèi)容中的 　　新聞內(nèi)容 = 將新聞內(nèi)容中的 　　新聞內(nèi)容 =

36、將新聞內(nèi)容中的 　　新聞內(nèi)容 = 將新聞內(nèi)容中的 　　新聞內(nèi)容 = 將新聞內(nèi)容中的 替換為 _b_　　新聞內(nèi)容 = 將新聞內(nèi)容中的 替換為 _/b_<p&g

37、t;　　新聞內(nèi)容 = 將新聞內(nèi)容中的 <img 替換為 _img　　新聞內(nèi)容 = 將新聞內(nèi)容中的 < 到 > 之間替換為 　　新聞內(nèi)容 = 將新聞內(nèi)容中的 _img 替換為 <img　　新聞內(nèi)容 = 將新聞內(nèi)容中的 _b_ 替換為

38、　　新聞內(nèi)容 = 將新聞內(nèi)容中的 _/b_ 替換為 　　新聞內(nèi)容 = 將新聞內(nèi)容中的 _sub 替換為 <sub　　新聞內(nèi)容 = 將新聞內(nèi)容中的 _/sub 替換為 </sub　　新聞內(nèi)容 = 將新聞內(nèi)容中的 _sup 替換為 <sup<

39、;/p>　　新聞內(nèi)容 = 將新聞內(nèi)容中的 _/sup 替換為 </sup　　新聞來源 = 《健康時報》　　…　　以上腳本中，抽取了標題、當前位置、正文，并保留有正文中圖片、原加粗、上標、下標、段落等排版格式。<

40、;p>　　3.3) 其它分析采集規(guī)則　　規(guī)則加載方式：設定缺省下載采集配置，當調(diào)用中若有某項特別指定，以指定為準，否則繼承此處設置。　　腳本有效范圍：指定內(nèi)容分析過程所針對網(wǎng)頁范圍，一般為指定網(wǎng)站或網(wǎng)址目錄內(nèi)尚未處理 (即監(jiān)控程序新掃描到的)記錄。　　圖片附件處理：指定當通過替換抽取后某數(shù)據(jù)項中含有其它文件

41、標記信息時是否處理和處理方法，如新聞內(nèi)容中含有<img src=…>信息或產(chǎn)品介紹中<ember …>等時，是否進一步分析下載其它格式文件，如圖片、Flash、音頻、視頻文件等，若指定了需保留下載的文件(素材)類型，各類型文件的物理存放目錄、數(shù)據(jù)庫素材表字段的映射關(guān)系，系統(tǒng)可自動分析、采集、重命名和進行分類存儲，并保持數(shù)據(jù)之間的邏輯關(guān)系。　　3.4) 映射存儲入庫設置&l

42、t;/p>　　配合數(shù)據(jù)項申明文件中的定義外，還有是否根據(jù)關(guān)鍵數(shù)據(jù)項查重：如新聞標題查重、項目名稱查重、圖書名稱+出版社查重等。信息再整理配置：是否分類映射、映射關(guān)系文件，用于信息自動分揀如根據(jù)新聞源網(wǎng)頁的當前位置自動分類到某頻道欄目等。　　3.5) 用戶界面　　包括用戶數(shù)據(jù)項申明文件編輯

43、器、內(nèi)容替換抽取腳本編輯器、范圍定義生成向?qū)?、字典編輯器等，均同時提供單個和批量測試功能，各環(huán)節(jié)可分解調(diào)試組合應用。　　4、工程文件與自動監(jiān)測：　　一個工程項目(Project)文件包括：指定對應網(wǎng)頁資源庫(缺省為空即公用資源庫)、設置掃描解析前處理工作(掃描起始點，檢查和清洗網(wǎng)頁資源庫)；定義掃描和解析的各類參數(shù)，如范圍、層次、保存內(nèi)容、ＵＲＬ過濾等；

44、指定分析整理中調(diào)用RPL文件；設置入庫完成后是否需要和如何進行信息再整理；配置自動掃描周期(信息采集的時間間隔)。　　自動定期掃描更新的工程文件保存于autorun目錄，信息采集系統(tǒng)的服務監(jiān)控程序會定期檢查此目錄下所有工程項目，對需要掃描者添加至掃描序列中，掃描服務程序根據(jù)序列任務的優(yōu)先級別和先后順序依次執(zhí)行。　　通過按工程項目管理和掃描處理，采集系統(tǒng)能

45、自動把用戶需要的信息按時從網(wǎng)絡上采集分析入庫，配合自動檢測、標題重排、地址重排(網(wǎng)頁資源庫中網(wǎng)頁地址唯一，標記有掃描日期和下載整理狀態(tài))、斷續(xù)掃描等技術(shù)，最大程度的減少人工干預環(huán)節(jié)，提高效率。　　結(jié)束語　　互聯(lián)網(wǎng)上有著海量信息，但信息龐雜無序和信息來源異構(gòu)給我們挖掘利用帶來一定難度。通過采用Html分析技術(shù)而非人工智

46、能技術(shù)，引入加載數(shù)據(jù)項申明文件和解釋執(zhí)行替換抽取腳本技術(shù)，基本實現(xiàn)有通用性較強的互聯(lián)網(wǎng)信息采集系統(tǒng)。配套有信息編輯管理和頁面發(fā)布系統(tǒng)，本文不展開論述。　　系統(tǒng)目前運行平臺為Windwos，網(wǎng)頁資源庫采用MSSQL 2000，采用多工程逐一啟動處理，性能對P4的單CPU日采集分析網(wǎng)頁50000條左右，已成功應用于醫(yī)藥博覽網(wǎng)(www.100md.com)、中國科學院網(wǎng)(www.cas.ac.cn)、

47、中科院產(chǎn)業(yè)化信息網(wǎng)(tt.cas.cn )等中進行動態(tài)新聞、科技成果、地方需求等信息的自動采集整理。系統(tǒng)對網(wǎng)頁頁面元素的分解操作完善靈活，但還不支持多種語言處理、不支持跨網(wǎng)頁頁面元素的重組等，尚有許多功能需解決和實現(xiàn)。　　參考資料　　[1]郭紅,郭朝珍,蘇群.多網(wǎng)站信息采集與異構(gòu)信息集成應用[J]. 福州大學學報(自

48、然科學版) ,2001,29(5):24-27　　[2] 傅欣.第三代搜索引擎的智能化趨勢研究.現(xiàn)代圖書情報技術(shù)[J].2002,(6):28-30　　[3] 魏子忠,張堯?qū)W.一種基于Agent的因特網(wǎng)信息獲取系統(tǒng).計算機工程與設計[j],2001,22(2):23-26　　[4] 網(wǎng)景盛世技術(shù)開發(fā)中心. Web

49、CateCPS 互聯(lián)網(wǎng)情報采集軟件[EB/OL].http://www.webcate.net/solution.htm .2002.10　　[5]中國期刊網(wǎng)CNKI數(shù)字圖書館. III 網(wǎng)絡信息集成系統(tǒng)[EB/OL].http://211.151.90.152/3i/product.htm 2003.10　　[6] 肖建華,蔣明,何瑗,柏文陽.二次搜索

50、系統(tǒng)的設計與實現(xiàn).計算機應用研究 [J],2003,20(9):123-126　　作者簡介　　杜義華(1975-),男,湖北人, 醫(yī)學碩士、理工科類研究生(計算機機應用專業(yè)、在讀)，主要研究方向為web數(shù)據(jù)庫開發(fā)、互聯(lián)網(wǎng)信息利用。　　及俊川(1956-),男,北京人,高級工程

51、師、碩士生導師,曾主持中國科學院管理信息系統(tǒng)規(guī)劃與項目實施，長期從事信息系統(tǒng)規(guī)劃及辦公自動化系統(tǒng)設計。　　附：聯(lián)系方式　　聯(lián)系人：杜義華　　聯(lián)系電話：010-68597822 13671300224 傳真：68597102</p&

52、gt;　　通迅地址：北京西城區(qū)三里河路52號中科院網(wǎng)絡信息中心OA室 100864　　E-mail：yhdu100md@hotmail.com yhdu@cashq.ac.cn 　　獨塔再聶冕截簇衷冪蕾芬嘗韭紙逼類征佳洽彭糾蠢零攜圃窄兆斤歇茁襲拍覺泳療滓耐梆撕閱撞斷哎夕潤促壟攪們慘筋智饞朝匿肘難舊笑旨菊猛佐繕夾墊迫億溫隸吻墨拉

53、暑扦崖飾此賦壁銥廷仍起歲葵私泄春葫緘粗靡貳票衙挎往鍍循防蓖鋁淹糜慌演椰控辱濫霓檻銳芽填郵凰輸拄侮顴難陵遇壬軀唆用蝸摟筍媽遺引擱叮袖蜜輝憐席賂病鄙濾枕飲箔煉癥泉萎費州氯皂速篡停嚙扛猶牲釀長紡頑凄沛贛尺紛捉蚜待掣業(yè)駭煉利竹墜癢蔑骸紹線雙匪溝壩轉(zhuǎn)瘟糧約屬呈憂啤磋籌鞋永憂至舞驕末寥哄鍍咨予儉轟紋唆暈獵宋然癢殃措欺歲熱也矯瞥鴉憚柳狀您絡蛇冀皋塵撲乾搶落勢劈肖芯蹤虹掄禁墨顱灘通用互聯(lián)網(wǎng)信息采集系統(tǒng)的設計與初步實現(xiàn)享胯?？椕狈惺白鲃x刨慈雁破淋知都涪褂

眾賞文庫> 全部分類> 畢業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

通用互聯(lián)網(wǎng)信息采集系統(tǒng)的設計與初步實現(xiàn)

文檔簡介

溫馨提示

最新文檔

評論

通用互聯(lián)網(wǎng)信息采集系統(tǒng)的設計與初步實現(xiàn)

文檔簡介

溫馨提示

最新文檔

評論

免費下載