web數(shù)據(jù)挖掘現(xiàn)狀分析

上傳人：奔*** IP屬地：河北更新時間：2024-03-02 格式：doc 頁數(shù)：7 大小：28.50KB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩6頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、　　Web數(shù)據(jù)挖掘現(xiàn)狀分析　　摘要:隨著Internet/Web技術(shù)的快速普及和迅猛發(fā)展,使各種信息可以以非常低的成本在網(wǎng)絡(luò)上獲得,如何在這個全球最大的數(shù)據(jù)集合中發(fā)現(xiàn)有用信息成為數(shù)據(jù)挖掘研究的熱點。Web數(shù)據(jù)挖掘是目前數(shù)據(jù)挖掘領(lǐng)域中的一個很重要的研究領(lǐng)域,文章介紹了Web數(shù)據(jù)挖掘研究領(lǐng)域的現(xiàn)狀及發(fā)展。 　　關(guān)鍵詞:數(shù)據(jù)挖掘;Web挖掘

2、 　　Abstract:With the rapid development and popularization of Internet / Web technology, a wide range of information can be accessed in the network at very low cost. The focus of data mining is How to

3、 find useful information in the world's largest data collection. Web mining is a very important research in the field of data mining. This paper outlines the areas of Web data mining research and its status quo and d

4、evelopment. 　　Key words: data mining;web mining 　　數(shù)據(jù)挖掘(Data Mining,DM)是指從大量數(shù)據(jù)中提取或“挖掘”知識,即從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘知識的過程。隨著以數(shù)據(jù)庫、數(shù)據(jù)倉庫等數(shù)據(jù)倉儲技術(shù)為基礎(chǔ)的信息系統(tǒng)在各行各業(yè)的應(yīng)用,海量數(shù)據(jù)不斷產(chǎn)生,隨之而來的問題,便是如此

5、多的數(shù)據(jù)讓人難以消化,無法從表面上看出他們所蘊涵的有用信息。如何從大量的數(shù)據(jù)中找到真正有用的信息成為人們關(guān)注的焦點,數(shù)據(jù)挖掘技術(shù)也正是伴隨著這種需求從研究走向應(yīng)用。各種類似Google、百度等的搜索引擎也層出不窮,Web數(shù)據(jù)挖掘的應(yīng)用在現(xiàn)實中不斷體現(xiàn)。 　　1 Web挖掘概述 　　近年來,隨著Internet/Web技術(shù)的快速普及和迅猛發(fā)展,使各種信息能

6、以非常低的成本在網(wǎng)絡(luò)上獲得,而從中取得的數(shù)據(jù)量便難以計算,而且Internet/WWW的發(fā)展趨勢繼續(xù)看好,特別是電子商務(wù)的蓬勃發(fā)展為網(wǎng)絡(luò)應(yīng)用提供了強大支持,因此,如何在WWW這個全球最大的數(shù)據(jù)集合中發(fā)現(xiàn)有用信息,無疑將成為數(shù)據(jù)挖掘研究的熱點。而Web挖掘便是指使用數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。它建立在對大量的網(wǎng)絡(luò)數(shù)據(jù)進行分析的基礎(chǔ)上,采用相應(yīng)的數(shù)據(jù)挖掘算法,在具體的應(yīng)用模型上進行數(shù)據(jù)的提取、篩選、轉(zhuǎn)換、挖掘和模

7、式分析,最后作出歸納性的推理。Web挖掘研究覆蓋了多個研究領(lǐng)域,包括數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計學、人工智能中的機器學習和神經(jīng)網(wǎng)絡(luò)等。 　　2 Web挖掘流程 　　與傳統(tǒng)數(shù)據(jù)和數(shù)據(jù)倉庫相比,Web上的信息是非結(jié)構(gòu)化或半結(jié)構(gòu)化的、動態(tài)的,并且是容易造成混淆的,所以很難直接以Web網(wǎng)頁上的數(shù)據(jù)進行數(shù)據(jù)挖掘,而必須經(jīng)過必要的數(shù)據(jù)處理。典型Web挖掘的處理流程

8、如下: 　　(1)查找資源。從目標Web文檔中得到數(shù)據(jù)。這些信息資源不僅限于在線Web文檔,還包括電子郵件、電子文檔、新聞組或者網(wǎng)站的日志數(shù)據(jù)甚至是通過Web形成的交易數(shù)據(jù)庫中的數(shù)據(jù)等。 　　(2)信息選擇和預處理。從取得的Web資源中剔除無用信息,將信息進行必要的整理。例如,從Web文檔中自動去除廣告連接和多余格式標記、自動識別段落或者字段,并將數(shù)據(jù)組

9、織成規(guī)整的邏輯形式甚至是關(guān)系表。 　　(3)模式發(fā)現(xiàn):自動進行模式發(fā)現(xiàn)?？梢栽谕粋€站點內(nèi)部或在多個站點之間進行。 　　(4)模式分析:驗證、解釋上一步驟產(chǎn)生的模式?？梢允菣C器自動完成,也可以是與分析人員進行交互來完成。 　　Web挖掘作為一個完整的技術(shù)體系,在進行挖掘之前的信息獲得IR(Information

10、Retrieval)和信息抽取IE(Information Extraction)相當重要。信息獲得(IR)的目的在于找到相關(guān)Web文檔,它只是把文檔中的數(shù)據(jù)看成未經(jīng)排序的詞組的集合;而信息抽取(IE)的目的在于從文檔中找到需要的數(shù)據(jù)項目,它對文檔的結(jié)構(gòu)和表達的含義感興趣,它的一個重要任務(wù)就是對數(shù)據(jù)進行組織整理并適當建立索引。 　　3 Web數(shù)據(jù)挖掘的分類 <p&g

11、t;　　Web數(shù)據(jù)挖掘是一項具有挑戰(zhàn)性的課題,它實現(xiàn)對Web存取模式、結(jié)構(gòu)和規(guī)則以及動態(tài)的Web內(nèi)容的查找。一般來說,Web數(shù)據(jù)挖掘可分為4類:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web使用記錄挖掘和Web用戶性質(zhì)挖掘。其中,Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用記錄挖掘是Web1.0時代就已經(jīng)有了的,而Web用戶性質(zhì)挖掘則是伴隨著Web2.0而出現(xiàn)的。 　　3.1 Web內(nèi)容挖掘 </p

12、>　　Web內(nèi)容挖掘指從Web內(nèi)容、數(shù)據(jù)、文檔中發(fā)現(xiàn)有用信息,主要包括文本挖掘和多媒體挖掘兩類,其對象包括文本、圖像、音頻、視頻、多媒體和其他各種類型的數(shù)據(jù)。 　　目前,Web內(nèi)容挖掘一般從兩個不同的觀點來進行研究:一種是從資源(IR)查找的方面來看,即從用戶的角度出發(fā),研究怎樣提高信息質(zhì)量和幫助用戶過濾信息。這方面的研究大部分都是建立在詞匯袋(bag of word

13、s)或稱向量表示法(vector representation)的基礎(chǔ)上,它將單個的詞匯看成文檔集合的屬性,只從統(tǒng)計的角度將詞匯孤立地看待,而忽略該詞匯出現(xiàn)的位置和上下文環(huán)境。這種方法的弊端是自由文本中的數(shù)據(jù)豐富,詞匯量非常大,處理起來很困難,為解決這個問題人們作了相應(yīng)的研究,采取了不同技術(shù),如信息增益、差異比等。 　　另外一種是從數(shù)據(jù)庫(DB)的觀點進行Web內(nèi)容挖掘,主要是試圖建立Web站點

14、的數(shù)據(jù)模型并加以集成,以支持復雜查詢,而不只是簡單的基于關(guān)鍵詞的搜索。這要通過找到Web文檔的模式、建立Web知識庫來實現(xiàn)。數(shù)據(jù)庫技術(shù)應(yīng)用于Web挖掘主要是為了解決Web信息的管理和查詢問題。 　　3.2 Web結(jié)構(gòu)挖掘 　　Web結(jié)構(gòu)挖掘的對象是Web本身的超鏈接,即對Web文檔的結(jié)構(gòu)進行挖掘。由于有用的知識不僅包含在Web頁面的內(nèi)容中,而且也包含在頁

15、面的結(jié)構(gòu)中,所以Web結(jié)構(gòu)挖掘是從站點的組織結(jié)構(gòu)和頁面結(jié)構(gòu)中推導出知識,找出數(shù)據(jù)鏈的結(jié)構(gòu)進行分類、聚類,從而發(fā)現(xiàn)頁面間的關(guān)系,進而改進搜索引擎的性能。對于給定的Web文檔集合,應(yīng)該能夠通過算法發(fā)現(xiàn)它們之間鏈接情況的有用信息,文檔之間的超鏈接反映了文檔之間的包含、引用或者從屬關(guān)系,引用文檔對被引用文檔的說明往往更客觀、更概括、更準確。 　　Web結(jié)構(gòu)挖掘在一定程度上得益于社會網(wǎng)絡(luò)和引用分析的研究。

16、Web結(jié)構(gòu)挖掘的基本思想是將Web看作一個有向圖,它的頂點是Web頁面,頁面間的超鏈接就是圖的邊,然后利用圖對Web的拓撲結(jié)構(gòu)進行分析。Web結(jié)構(gòu)挖掘算法一般可分為查詢相關(guān)算法和查詢獨立算法兩類。查詢相關(guān)算法需要為每一個查詢進行一次超鏈分析從而進行一次值的指派;而查詢獨立算法則為每個文檔僅進行一次值的指派,對所有的查詢都使用此值。HITS和Page Rank分別是查詢相關(guān)算法和查詢獨立算法的代表。他們的共同點是使用一定方法計算Web頁面

17、之間超鏈接的質(zhì)量,從而得到頁面的權(quán)重。著名的Clever和Google搜索引擎就采用了該類算法。 　　3.3 Web使用記錄挖掘 　　Web使用記錄挖掘也叫Web日志挖掘或Web訪問信息挖掘,在新興的電子商務(wù)領(lǐng)域有重要意義,它通過挖掘相關(guān)的Web日志記錄,來發(fā)現(xiàn)用戶訪問Web頁面的模式,通過分析日志記錄中的規(guī)律,可以識別用戶的忠實度、喜好、滿意度,可以發(fā)

18、現(xiàn)潛在用戶,增強站點的服務(wù)競爭力。Web使用記錄數(shù)據(jù)除了服務(wù)器的日志記錄外,還包括代理服務(wù)器日志、瀏覽器端日志、注冊信息、用戶會話信息、交易信息、Cookie中的信息、用戶查詢等一切用戶與站點之間可能的交互記錄?？梢?Web使用記錄的數(shù)據(jù)量是非常巨大的,而且數(shù)據(jù)類型也相當豐富。根據(jù)對數(shù)據(jù)源的不同處理方法,Web用法挖掘可以分為兩種:①將網(wǎng)絡(luò)服務(wù)器的日志文件作為原始數(shù)據(jù),應(yīng)用特定的預處理方法進行處理后再進行挖掘;②將網(wǎng)絡(luò)服務(wù)器的日志文件轉(zhuǎn)

19、換為圖表,然后再進行進一步的數(shù)據(jù)挖掘。通常,在對原始數(shù)據(jù)進行預處理后就可以使用傳統(tǒng)的數(shù)據(jù)挖掘方法進行挖掘。 　　3.4 Web用戶性質(zhì)挖掘 　　Web用戶性質(zhì)挖掘是伴隨著Web2.0出現(xiàn)的?；赗SS、Blog、SNS以及Wiki等互聯(lián)網(wǎng)軟件的廣泛應(yīng)用,Web2.0幫助人們從Web1.0時代的各大門戶網(wǎng)站“填鴨”式的信息轟炸,過渡到了“人人對話”,每個普

20、通用戶既是信息的獲取者,也是信息的提供者。面對Web2.0的誕生,Web數(shù)據(jù)挖掘技術(shù)又面臨著新的挑戰(zhàn)。 　　在Web2.0時代,網(wǎng)絡(luò)徹底個人化了,它完全允許客戶用自己的方式、喜好和個性化的定制服務(wù)創(chuàng)造自己的互聯(lián)網(wǎng),它一方面給予互聯(lián)網(wǎng)用戶最大的自由度,另一方面給予有心商家有待發(fā)掘的高含金量信息數(shù)據(jù)。通過對Web用戶自建的RSS、Blog等Web2.0功能模塊下客戶信息的統(tǒng)計分析,能夠幫助運營商以較

21、低成本獲得準確度較高的客戶興趣傾向、個性化需求以及新業(yè)務(wù)發(fā)展趨勢等信息。有關(guān)Web2.0下的數(shù)據(jù)挖掘,根據(jù)數(shù)據(jù)來源、數(shù)據(jù)類型、數(shù)據(jù)集合中的用戶數(shù)量、數(shù)據(jù)集合中的服務(wù)器數(shù)量等將Web用戶性質(zhì)挖掘分為5類: 　　(1)個性挖掘。針對單個用戶的使用記錄對該用戶進行建模,結(jié)合該用戶基本信息分析他的使用習慣和個人喜好,目的是在電子商務(wù)環(huán)境下為該用戶提供與眾不同的個性化服務(wù)。 <

22、;p>　　(2)系統(tǒng)改進。Web服務(wù)(數(shù)據(jù)庫、網(wǎng)絡(luò)等)的性能和其他服務(wù)質(zhì)量是衡量用戶滿意度的關(guān)鍵指標,Web用法挖掘可以通過用戶的記錄發(fā)現(xiàn)站點的性能瓶頸,以提示站點管理者改進Web緩存策略、網(wǎng)絡(luò)傳輸策略、流量負載平衡機制和數(shù)據(jù)的分布策略。此外,可以通過分析網(wǎng)絡(luò)的非法入侵數(shù)據(jù)找到系統(tǒng)弱點,提高站點安全性,這在電子商務(wù)環(huán)境下尤為重要。 　　(3)站點修改。站點的結(jié)構(gòu)和內(nèi)容是吸引用戶的關(guān)鍵。We

23、b挖掘通過用戶的行為記錄和反饋情況為站點設(shè)計者提供改進的依據(jù),比如頁面連接情況應(yīng)如何組織、哪些頁面能夠直接訪問等。 　　(4)智能商務(wù)。用戶怎樣使用Web站點的信息,無疑是電子商務(wù)銷售商關(guān)心的重點,用戶一次訪問的周期可分為被吸引、駐留、購買和離開4個步驟,Web挖掘可以通過分析用戶點擊流等Web日志信息挖掘用戶行為的動機,以幫助銷售商合理安排銷售策略。

24、　　(5)Web特征描述。這類研究關(guān)注怎樣通過用戶對站點的訪問情況,統(tǒng)計各個用戶在頁面上的交互情況,以及對用戶訪問情況進行特征描述。 　　4 結(jié)束語 　　Web數(shù)據(jù)挖掘是當今世界上的熱門研究領(lǐng)域,其研究具有廣闊的應(yīng)用前景和巨大的現(xiàn)實意義。目前國內(nèi)的Web數(shù)據(jù)挖掘尚處于學習、跟蹤和探索階段。盡管Web挖掘的形式和研究方

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

web數(shù)據(jù)挖掘現(xiàn)狀分析

文檔簡介

溫馨提示

最新文檔

評論

web數(shù)據(jù)挖掘現(xiàn)狀分析

文檔簡介

溫馨提示

最新文檔

評論

免費下載