2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩15頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、<p><b>  目 錄</b></p><p><b>  摘要1</b></p><p><b>  關(guān)鍵詞1</b></p><p>  Abstract1</p><p>  Keywords1</p><p>  一、We

2、b日志挖掘2</p><p> ?。ㄒ唬?shù)據(jù)預(yù)處理2</p><p> ?。ǘ?、模式發(fā)現(xiàn)4</p><p>  (三)、模式分析5</p><p><b>  二、關(guān)聯(lián)分析5</b></p><p><b> ?。ㄒ唬╆P(guān)聯(lián)規(guī)則5</b></p>

3、<p> ?。ǘ〢priori方法簡(jiǎn)介7</p><p><b>  四、實(shí)證分析8</b></p><p> ?。ㄒ唬?shù)據(jù)預(yù)處理8</p><p><b> ?。ǘ┠J桨l(fā)現(xiàn)9</b></p><p> ?。ㄈ┠J椒治?0</p><p>  五、個(gè)

4、性化推薦11</p><p><b>  六 、結(jié)束語(yǔ)12</b></p><p><b>  參考文獻(xiàn)13</b></p><p><b>  附錄15</b></p><p>  基于關(guān)聯(lián)分析的Web日志挖掘</p><p>  摘要:web

5、日志挖掘是web數(shù)據(jù)挖掘中的一個(gè)重要組成部分,通過(guò)從Web訪問(wèn)日志中發(fā)現(xiàn)用戶的訪問(wèn)模式,預(yù)測(cè)用戶的瀏覽行為。本文主要介紹了web數(shù)據(jù)挖掘的一般過(guò)程及方法,對(duì)Apriori關(guān)聯(lián)分析方法作了重點(diǎn)闡述,并利用該方法對(duì)某網(wǎng)站某天的部分web日志數(shù)據(jù)進(jìn)行了實(shí)證分析,得出了用戶瀏覽模式及網(wǎng)頁(yè)內(nèi)容之間的關(guān)聯(lián)規(guī)則,找到單個(gè)用戶在瀏覽頁(yè)面興趣愛(ài)好以及群體用戶的瀏覽習(xí)慣,繼而對(duì)網(wǎng)站的網(wǎng)頁(yè)規(guī)劃布局提出了個(gè)性化的意見(jiàn)。</p><p>

6、  關(guān)鍵詞:web日志挖掘;關(guān)聯(lián)分析;實(shí)證分析 </p><p>  Web Log Mining Based On Association Analysis</p><p>  Abstract: Web log mining is an important part of web data mining, finding the user's access pattern i

7、n the Web access logs ,the researcher can predict the user's browsing behavior. This essay introduces the method of Association analysis in Web log mining,espacally the method of Apriori, at the same time ,

8、we use this method to analysis a particular site’s log data to find the users’ browsing patterns and association rules between web pages ;It also finds the browsing interest of a single user a</p><p>  Keyw

9、ords: Web log mining; Association analysis; Positive analysis</p><p>  隨著WWW在深度和廣度上的發(fā)展,Internet也前所未有地改變著我們的生活,數(shù)據(jù)信息已經(jīng)在這個(gè)時(shí)代爆炸了。但是,我們又不得不面對(duì)“人們被數(shù)據(jù)淹沒(méi),人們卻饑餓于知識(shí)”的現(xiàn)實(shí)。隨著興起與20世紀(jì)80年代末的數(shù)據(jù)挖掘在web上的應(yīng)用,從某種程度上改善了上述情況。根據(jù)所挖掘的W

10、eb 數(shù)據(jù)的類型,可以將Web 數(shù)據(jù)挖掘分為以下三類:Web 內(nèi)容挖掘(Web Content Mining)、Web 結(jié)構(gòu)挖掘(Web Structure Mining)、Web 使用挖掘(Web Usage Mining)(也稱為Web日志挖掘)。Web日志挖掘是指采用數(shù)據(jù)挖掘的技術(shù),通過(guò)對(duì)Web服務(wù)器日志中大量的用戶訪問(wèn)記錄深入分析,發(fā)現(xiàn)用戶的訪問(wèn)模式和興趣愛(ài)好等有趣、新穎、潛在有用的以及可理解的未知信息和知識(shí),用于分析站點(diǎn)的使用

11、情況,從而輔助管理和支持決策。當(dāng)前,web日志挖掘主要被用于個(gè)性化服務(wù)與定制、改進(jìn)系統(tǒng)性能和結(jié)構(gòu)、站點(diǎn)修改、商業(yè)智能以及web特征描述等諸多領(lǐng)域。</p><p><b>  一、Web日志挖掘</b></p><p>  Web日志挖掘主要是通過(guò)對(duì)web瀏覽的日志數(shù)據(jù)的分析,發(fā)現(xiàn)用戶的瀏覽模式,更好地規(guī)劃站點(diǎn)。</p><p>  下面是一段

12、日志:① 2006-10-17 00:00:00②202.200.44.43 ③ 218.77.130.24 80 ④ GET ⑤/favicon.ico ⑥ Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+zh-CN;+rv:1.8.0.3)+Gecko/20060426+Firefox/1.5.0.3。主要包括:①訪問(wèn)時(shí)間;②用戶IP地址;③訪問(wèn)的URL,端口;④請(qǐng)求方法(“GET”、“POST”

13、等);⑤訪問(wèn)模式;⑥agent,即用戶使用的操作系統(tǒng)類型和瀏覽器軟件。</p><p>  Web日志挖掘一般都包含以下幾個(gè)過(guò)程:</p><p><b> ?。ㄒ唬?shù)據(jù)預(yù)處理</b></p><p>  數(shù)據(jù)預(yù)處理是Web 日志挖掘的首要環(huán)節(jié), 其任務(wù)是將原始日志數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘和模式發(fā)現(xiàn)所必需的格式, 預(yù)處理可以直接簡(jiǎn)化數(shù)據(jù)挖掘過(guò)程,

14、使結(jié)果更具客觀性。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充四個(gè)步驟。</p><p><b>  1.?dāng)?shù)據(jù)凈化</b></p><p>  數(shù)據(jù)凈化, 是指將待處理的日志數(shù)據(jù)導(dǎo)入到關(guān)系數(shù)據(jù)庫(kù),刪除Web日志數(shù)據(jù)中的錯(cuò)誤值、缺失值等,同時(shí)把與Web數(shù)據(jù)挖掘無(wú)關(guān)的變量或數(shù)據(jù)進(jìn)行清理,已達(dá)到簡(jiǎn)便運(yùn)算的目的;</p><p><b&g

15、t;  2.用戶識(shí)別</b></p><p>  用戶識(shí)別, 是從Web日志數(shù)據(jù)中找出每個(gè)用戶的訪問(wèn)地址,避免挖掘的重復(fù)性。目前, 由于本地緩存、代理服務(wù)器和防火墻的存在, 為用戶動(dòng)態(tài)的分配IP 地址, 想要識(shí)別出每一個(gè)用戶變得很復(fù)雜??梢酝ㄟ^(guò)以下 3 種方法來(lái)識(shí)別用戶:</p><p>  ( 1) 如果Web 服務(wù)器提供Cookie , 則具有相同Cookie 值的頁(yè)面請(qǐng)求

16、是來(lái)自同一個(gè)用戶;</p><p>  ( 2) 如果Web 服務(wù)器沒(méi)有提供Cookie , 但每個(gè)網(wǎng)站用戶都要一個(gè)登錄標(biāo)識(shí)符( 用戶ID) 方可訪問(wèn)站點(diǎn), 則利用登錄標(biāo)識(shí)符識(shí)別用戶;</p><p>  ( 3) 如果Web 服務(wù)器既沒(méi)有Cookie 也沒(méi)有用戶ID,最常用的方法就是采用啟發(fā)式規(guī)則。根據(jù)我們的日志格式采用兩條啟發(fā)式規(guī)則:①不同的IP地址代表不同的用戶;② 如果IP地址相同

17、,但是操作系統(tǒng)類型或者瀏覽器軟件不同我們認(rèn)為是不同的用戶。</p><p><b>  3.會(huì)話識(shí)別</b></p><p>  會(huì)話, 是指同一個(gè)用戶連續(xù)請(qǐng)求的頁(yè)面。在跨越時(shí)間區(qū)段較大的Web 服務(wù)器日志中, 用戶可能多次訪問(wèn)該站點(diǎn)。會(huì)話識(shí)別的目的是將用戶的所有訪問(wèn)序列分成單個(gè)的訪問(wèn)序列。常用的算法有以下幾種:</p><p>  (1)對(duì)用

18、戶在整個(gè)網(wǎng)站的停留時(shí)間設(shè)一個(gè)閾值T。如果兩個(gè)相鄰的瀏覽頁(yè)面之間的訪問(wèn)時(shí)間超過(guò)T, 則認(rèn)為用戶又開(kāi)始了一個(gè)新的會(huì)話。一般T取30min。</p><p> ?。?)對(duì)用戶在一個(gè)頁(yè)面停留時(shí)間設(shè)一個(gè)域值△t。如果2 個(gè)連續(xù)請(qǐng)求的時(shí)間間隔沒(méi)有超過(guò)這個(gè)值△t, 則屬于同一會(huì)話。否則, 分屬于兩個(gè)會(huì)話。△t 一般取10min。</p><p>  (3)利用用戶的訪問(wèn)歷史和引用頁(yè)來(lái)劃分。如果一個(gè)用戶的

19、請(qǐng)求不能通過(guò)引用頁(yè)的鏈接進(jìn)入, 則屬于另一個(gè)會(huì)話。</p><p> ?。?)最大向前引用算法( MF) 。設(shè)一個(gè)用戶會(huì)話里不會(huì)出現(xiàn)用戶以前已經(jīng)訪問(wèn)過(guò)的頁(yè)面, 如果用戶在向前瀏覽到一個(gè)網(wǎng)</p><p><b>  4. 路徑補(bǔ)充</b></p><p>  用戶會(huì)話對(duì)數(shù)據(jù)挖掘來(lái)講,顯得粗糙,仍不夠精確,需把會(huì)話進(jìn)一步分成具有一定語(yǔ)意的事務(wù),如

20、同籃子數(shù)據(jù)中顧客一次購(gòu)買的商品。可以把Web頁(yè)簡(jiǎn)單地分為兩類:內(nèi)容頁(yè)和導(dǎo)航頁(yè)。在編程中采用的區(qū)分導(dǎo)航頁(yè)和內(nèi)容頁(yè)的方法是時(shí)間點(diǎn)法,即設(shè)定一時(shí)間值,實(shí)際中時(shí)間點(diǎn)的取值為30秒。當(dāng)用戶對(duì)該網(wǎng)頁(yè)訪問(wèn)的時(shí)間小于時(shí)間點(diǎn)為導(dǎo)航頁(yè),大于時(shí)間點(diǎn)則為內(nèi)容頁(yè)。用戶對(duì)網(wǎng)頁(yè)的訪問(wèn)時(shí)間為用戶前后兩次訪問(wèn)該網(wǎng)頁(yè)的時(shí)間差,通過(guò)調(diào)用SQL語(yǔ)句可以查找到用戶訪問(wèn)網(wǎng)頁(yè)的時(shí)間,進(jìn)而區(qū)分出導(dǎo)航頁(yè)和內(nèi)容頁(yè)。</p><p><b> ?。ǘ┠J?/p>

21、發(fā)現(xiàn)</b></p><p>  模式發(fā)現(xiàn), 是對(duì)預(yù)處理后的數(shù)據(jù)用數(shù)據(jù)挖掘算法來(lái)分析數(shù)據(jù)。分有統(tǒng)計(jì)、分類、聚類、關(guān)聯(lián)規(guī)則、路徑分析等多種方法。</p><p> ?。?)統(tǒng)計(jì)。統(tǒng)計(jì)方法是從Web 站點(diǎn)中抽取知識(shí)的最常用方法, 它通過(guò)分析會(huì)話文件, 對(duì)瀏覽時(shí)間、瀏覽路徑等進(jìn)行頻度、平均值等統(tǒng)計(jì)分析。雖然缺乏深度, 但仍可用于改進(jìn)網(wǎng)站結(jié)構(gòu), 增強(qiáng)系統(tǒng)安全性, 提高網(wǎng)站訪問(wèn)的效率等。

22、</p><p> ?。?)分類。分類包括的挖掘技術(shù)將找出定義了一個(gè)項(xiàng)或事件是否屬于數(shù)據(jù)中某特定子集或類的規(guī)則。該類技術(shù)是最廣泛應(yīng)用于各類業(yè)務(wù)問(wèn)題的一類挖掘技術(shù)。分類算法最知名的是決策樹(shù)方法,此外還有神經(jīng)元網(wǎng)絡(luò)、Bayesian分類等。</p><p> ?。?)聚類。聚類是將數(shù)據(jù)集劃分為多個(gè)類,使得在同一類中的數(shù)據(jù)之間有較高的相似度,而在不同類中的數(shù)據(jù)差別盡可能大。在聚類技術(shù)中,沒(méi)有預(yù)先

23、定義好的類別和訓(xùn)練樣本存在,所有記錄都根據(jù)彼此相似程度來(lái)加以歸類。主要算法有k—means、DBSCAN等。</p><p>  (4)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,自動(dòng)探測(cè)以前未發(fā)現(xiàn)的隱藏著的模式,關(guān)聯(lián)分析經(jīng)常被表達(dá)為規(guī)則的形式。目前采用的主要關(guān)聯(lián)規(guī)則挖掘算法有Apriori、FP-growth算法等。</p><p> ?。?)路徑分析。路徑分析可以用來(lái)確定網(wǎng)站

24、上的頻繁訪問(wèn)路徑, 從而調(diào)整和優(yōu)化網(wǎng)站結(jié)構(gòu), 使得用戶訪問(wèn)所需網(wǎng)頁(yè)更加簡(jiǎn)單快捷, 還可以根據(jù)用戶典型的瀏覽模式用于智能推薦和有針對(duì)性的電子商務(wù)活動(dòng)。</p><p><b> ?。ㄈ┠J椒治?lt;/b></p><p>  基于以上的所有過(guò)程,對(duì)原始數(shù)據(jù)進(jìn)行進(jìn)一步分析,找出用戶的瀏覽模式規(guī)律,即用戶的興趣愛(ài)好及習(xí)慣,并使其可視化,為網(wǎng)頁(yè)的規(guī)劃及網(wǎng)站建設(shè)的決策提供具體理論

25、依據(jù)。其主要方法有:查詢、OLAP 技術(shù)和可視化技術(shù)等。</p><p><b>  二、關(guān)聯(lián)分析</b></p><p><b> ?。ㄒ唬╆P(guān)聯(lián)規(guī)則</b></p><p>  顧名思義,關(guān)聯(lián)規(guī)則(association rule)挖掘技術(shù)用于于發(fā)現(xiàn)數(shù)據(jù)庫(kù)中屬性之間的有趣聯(lián)系。</p><p> 

26、 設(shè)交易(transaction) 的集合,,這里交易是項(xiàng)的集合,可以表述為:并且。中的元素稱為項(xiàng)。對(duì)應(yīng)每一個(gè)交易有唯一的標(biāo)識(shí),如交易號(hào),記作。設(shè)是數(shù)據(jù)集中所有項(xiàng)的集合,是二進(jìn)制文字的集合。中的任何子集稱為項(xiàng)目集(itemset),若,則稱集合為項(xiàng)集。設(shè)和分別為中的事務(wù)和項(xiàng)目集,如果,稱事務(wù)包含項(xiàng)目集。項(xiàng)目集的支持率,若不小于用戶指定的最小支持率(記作:minsupport),則稱為頻繁項(xiàng)目集,否則稱為非頻繁項(xiàng)目集。設(shè),是數(shù)據(jù)集中的項(xiàng)目

27、集。若,則;若,如果是非頻繁項(xiàng)目集,則也是非頻繁項(xiàng)目集;若,如果是頻繁項(xiàng)目集,則也是頻繁項(xiàng)目集。</p><p>  一個(gè)關(guān)聯(lián)規(guī)則是形如的蘊(yùn)涵式,這里,都是項(xiàng)目集,且,,并且,,分別稱為關(guān)聯(lián)規(guī)則的前提和結(jié)論。</p><p>  一般使用支持度(support)和置信度(confidence)兩個(gè)參數(shù)來(lái)描述關(guān)聯(lián)規(guī)則的屬性。 </p><p><b>  1

28、.支持度</b></p><p>  規(guī)則在數(shù)據(jù)庫(kù)中的支持度是交易集中同時(shí)包含, 的事務(wù)數(shù)與所有事務(wù)數(shù)之比,記為 。支持度描述了,這兩個(gè)項(xiàng)集在所有事務(wù)中同時(shí)出現(xiàn)的概率。</p><p><b>  2.置信度</b></p><p>  規(guī)則在事務(wù)集中的置信度(confidence)是指同時(shí)包含,的事務(wù)數(shù)與包含的事務(wù)數(shù)之比,它用來(lái)衡

29、量關(guān)聯(lián)規(guī)則的可信程度。記為</p><p><b>  規(guī)則 A C:</b></p><p>  支持度 = support({A}{C}) = 50%</p><p>  置信度 = support({A}{C})/support({A}) = 66.6%</p><p>  圖1:支持度計(jì)算圖解</p>

30、;<p> ?。ǘ〢priori方法簡(jiǎn)介</p><p>  Apriori算法最先是由Agrawal等人于1993年提出的,它的基本思想是:首先找出所有具有超出最小支持度的支持度項(xiàng)集,用頻繁的(k—1)-項(xiàng)集生成候選的頻繁k-項(xiàng)集;其次利用大項(xiàng)集產(chǎn)生所需的規(guī)則;任何頻繁項(xiàng)集的所有子集一定是頻繁項(xiàng)集是其核心。</p><p>  Apriori算法需要兩個(gè)步驟:第一個(gè)是生成

31、條目集;第二個(gè)是使用生成的條目集創(chuàng)建一組關(guān)聯(lián)規(guī)則。</p><p><b>  1.算法偽代碼</b></p><p>  Ck: 長(zhǎng)度為 k的候選項(xiàng)集</p><p>  Lk : 長(zhǎng)度為k的頻繁項(xiàng)集</p><p>  L1 = {頻繁項(xiàng)};</p><p>  for (k = 1; Lk

32、!=; k++) do begin</p><p>  Ck+1 = 由 Lk產(chǎn)生的候選;</p><p>  for each 數(shù)據(jù)庫(kù)中的事務(wù) t do</p><p>  增加包含在t 中的所有候選Ck+1的計(jì)數(shù)</p><p>  Lk+1 = Ck+1 中滿足 min_support的候選</p><p>

33、  圖2:Apriori算法圖解</p><p><b>  三、實(shí)證分析</b></p><p>  本數(shù)據(jù)來(lái)源為某網(wǎng)站某天的全部Web日志數(shù)據(jù)。</p><p><b>  (一)數(shù)據(jù)預(yù)處理</b></p><p>  由于Web日志數(shù)據(jù)時(shí)一個(gè)非常龐大的數(shù)據(jù)集體,因此選用數(shù)據(jù)庫(kù)作為分析工具,將原

34、始數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù),取出前10000行日志數(shù)據(jù),處理如下:</p><p>  1.數(shù)據(jù)凈化:存在缺失值的整行->刪除,訪問(wèn)方式除GET、POST、OPTIONS以外的整行->刪除;</p><p>  2. 用戶識(shí)別:由于數(shù)據(jù)中不存在IP地址相同,但是操作系統(tǒng)類型或者瀏覽器軟件不同的情況,從而認(rèn)為不同的IP地址代表不同的用戶;</p><p>  3.會(huì)

35、話識(shí)別、及路徑補(bǔ)充:用戶會(huì)話被定義為用戶在對(duì)網(wǎng)站的一次訪問(wèn)過(guò)程中所請(qǐng)求的URL的集合,若某一用戶發(fā)出連續(xù)兩個(gè)URL的請(qǐng)求的時(shí)間差不超過(guò)規(guī)定的時(shí)間閾值,則這兩次請(qǐng)求被劃分在同一用戶會(huì)話中,否則分別屬于兩個(gè)不同的用戶會(huì)話,對(duì)與本數(shù)據(jù), 時(shí)間閾值設(shè)為30分鐘。</p><p><b> ?。ǘ┠J桨l(fā)現(xiàn)</b></p><p><b>  1.描述性統(tǒng)計(jì)</

36、b></p><p>  對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,得出以下描述性統(tǒng)計(jì):</p><p><b>  總用戶數(shù):1469</b></p><p><b>  總鏈接數(shù):146</b></p><p>  TOP10訪問(wèn)頁(yè)面: </p><p>  /new/clubmain/

37、newimg/num3.gif, 1066;</p><p>  /new/clubmain/newimg/num1.gif, 1056;</p><p>  /new/clubmain/newimg/num4.gif,1052;</p><p>  /new/clubmain/newimg/num2.gif,1010;</p><p>  

38、/newimg/num3.gif;873;</p><p>  /newimg/num1.gif,863;</p><p>  /newimg/num2.gif,854;</p><p>  /newimg/num4.gif,853;</p><p>  /default.asp,453;</p><p>  /new

39、/publicforum/content.asp,329.</p><p>  2. Apriori關(guān)聯(lián)分析</p><p><b>  (1)生成數(shù)據(jù)庫(kù)集</b></p><p>  從描述性統(tǒng)計(jì)中得到的不同用戶作為數(shù)據(jù)庫(kù)集的行自變量,不同的鏈接作為列自變量;當(dāng)用戶i瀏覽過(guò)鏈接j,則其對(duì)應(yīng)項(xiàng)=1,否則=0;設(shè)置相應(yīng)的覆蓋要求,這樣我們可以同時(shí)

40、得到單項(xiàng)集合。</p><p><b> ?。?)生成關(guān)聯(lián)規(guī)則</b></p><p>  從單項(xiàng)集合中,生成可能的雙項(xiàng)集合規(guī)則,分別計(jì)算置信度。</p><p><b> ?。?)結(jié)果部分</b></p><p>  見(jiàn)表1:關(guān)聯(lián)度計(jì)算結(jié)果表</p><p><b&g

41、t;  (三)模式分析 </b></p><p>  當(dāng)我們把最小置信度設(shè)為85%,通過(guò)關(guān)聯(lián)規(guī)則的形成以及對(duì)應(yīng)置信度的計(jì)算,我們可以從中得到以下有用的信息:</p><p>  1.置信度大于最小置信度時(shí):我們可以這樣認(rèn)為,用戶群體在瀏覽相關(guān)網(wǎng)頁(yè)時(shí),所呈列的鏈接之間是有很大關(guān)聯(lián)的,他們是用戶群的共同愛(ài)好,通過(guò)網(wǎng)頁(yè)布局的調(diào)整,從某種意義上,可以帶來(lái)更高的點(diǎn)擊率及潛在客戶;<

42、/p><p>  2.置信度小于最小置信度時(shí):我們可以這樣認(rèn)為,用戶群體對(duì)所呈列鏈接之間沒(méi)太多的關(guān)聯(lián),亦或關(guān)聯(lián)規(guī)則中的鏈接在爭(zhēng)奪用戶。</p><p>  表1:關(guān)聯(lián)度計(jì)算結(jié)果表</p><p><b> ?。ㄋ惴ㄔ斠?jiàn)附錄)</b></p><p><b>  四、個(gè)性化推薦</b></p>

43、<p>  通過(guò)以上的關(guān)聯(lián)分析,有了用戶頻繁訪問(wèn)路徑和鏈接之間的興趣度,可以構(gòu)建個(gè)性化推薦系統(tǒng)模型。對(duì)于以上的實(shí)證例子,我們可以在置信度高于最低置信度的相關(guān)鏈接之間,建立某種信息快速互聯(lián)的橋梁,亦或是在網(wǎng)頁(yè)規(guī)劃中,充分考慮鏈接之間的關(guān)聯(lián)關(guān)系,從而為更人性化、合理化的網(wǎng)頁(yè)設(shè)計(jì)提供決策依據(jù)。如:當(dāng)客戶瀏覽/newimg/num1.gif時(shí),有0.91的概率會(huì)瀏覽/newimg/num4.gif,那么,在兩者之間就存在很高的關(guān)聯(lián)

44、性,從而我們有必要對(duì)這兩個(gè)鏈接建立某種跟緊密的聯(lián)系。</p><p><b>  五 、結(jié)束語(yǔ)</b></p><p>  本文先研究了web日志挖掘當(dāng)前研究成果,介紹了web日志挖掘的基本流程,然后著重介紹了如何利用Apririo關(guān)聯(lián)規(guī)則算法來(lái)挖掘出用戶頻繁訪問(wèn)模式,找出瀏覽頁(yè)面之間的關(guān)聯(lián)規(guī)則,為個(gè)性化推薦系統(tǒng)模型提供了依據(jù)。</p><p>

45、;  Web 日志挖掘作為Web數(shù)據(jù)挖掘的嶄新研究方向,今年來(lái)已經(jīng)取得了一些突破性的進(jìn)展, 但是由于Web 的不確定性和多樣性,以及Web的不斷壯大,還有很多問(wèn)題亟待解決, 有待于我們進(jìn)一步去研究和探索。</p><p><b>  參考文獻(xiàn)</b></p><p>  [1].李國(guó)慧.Web數(shù)據(jù)挖掘研究.數(shù)據(jù)庫(kù)與信息管理本,2008年1月12日</p>

46、<p>  [2]. 王玉珍.Web數(shù)據(jù)挖掘的分析與探索[ J ].電腦開(kāi)發(fā)與應(yīng)用 2003年4月</p><p>  [3].張莉.基于模糊聚類的案例聚類算法研究.教育與教學(xué)研究,2009年4月第四期</p><p>  [4].蘇晶.web數(shù)據(jù)挖掘的技術(shù)研究.中國(guó)新技術(shù)新產(chǎn)品,2008 NO.12(上) </p><p>  [5].葉苗群.web

47、日志挖掘研究.寧波工程學(xué)院學(xué)報(bào),2005年6月</p><p>  [6].郭欣,許林英.改進(jìn)的關(guān)聯(lián)的關(guān)聯(lián)規(guī)則算法在電子商務(wù)中的應(yīng)用.微機(jī)處理, 2008年10月5期</p><p>  [7].Richard J.Roiger, Michael W.Geatz.數(shù)據(jù)挖掘教程[M].清華大學(xué)出版社,2003版 </p><p>  [8]. 高哲,魏海平,王福威,趙

48、曉碧.基于Web日志挖掘的Web文檔聚類.計(jì)算機(jī)工程與設(shè)計(jì),2008年9月</p><p>  [9].王麗娜,Web 日志挖掘技術(shù)研究,光盤技術(shù),2008年第4期</p><p>  [10].張健沛,劉建東等.基于Web的日志挖掘數(shù)據(jù)預(yù)處理方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2003.10.</p><p>  [11].徐章艷,劉美玲,張師超等.Apriori

49、算法的三種優(yōu)化方法[J].計(jì)算機(jī)工程與應(yīng)用,2004,25(2):190—192</p><p>  [12]. 李珊,袁方.基于Web日志挖掘的頁(yè)面興趣度方法的改進(jìn).計(jì)算機(jī)時(shí)代,2007年第3期</p><p>  [13]. Ellen Speaus.Mining structural information on the web.In:Proceedings of the 6th I

50、nternational World Wide Web Conference,April 1997</p><p>  [14].Jaideep Srivastava,Robert Cooley,Mukund Deshpand,Pang-Ning Tan.Web usage mining discovery and application of usage patterns from web data.SIGKD

51、D Explorations,2000,1(2):12—23</p><p>  [15].朱明.數(shù)據(jù)挖掘[M].中國(guó)科學(xué)技術(shù)大學(xué)出版社,2002年.附錄</p><p><b>  #用戶和文件交叉表</b></p><p>  ctab=read.csv("ctab.csv",header=T)</p>&

52、lt;p>  ctab=ctab[,-1]</p><p>  #計(jì)算每個(gè)文件被訪問(wèn)次數(shù)(忽略重復(fù)訪問(wèn))</p><p>  fun1<-function(val){</p><p>  return(sum(val>0))</p><p><b>  }</b></p><p>

53、;  simc=apply(ctab,2,fun1)</p><p>  #兩個(gè)文件被同一用戶訪問(wèn)的次數(shù)</p><p>  mtab=read.csv("mtab.csv",header=T)</p><p>  mtab=mtab[,-1]</p><p>  #兩個(gè)文件被同時(shí)訪問(wèn)的關(guān)聯(lián)度</p><

54、;p>  gld=read.csv("gld.csv",header=T)</p><p>  gld=as.matrix(gld[,-1])</p><p>  daty<-read.csv("lie2.csv",header=F) #文件名單</p><p>  tempname=as.vector(daty

55、[,1])</p><p>  n=length(tempname)</p><p>  tempx=array(0,dim=c(n,0))</p><p>  for(i in 1:n) tempx=data.frame(tempx,c(tempname))</p><p>  tempx=as.matrix(tempx)</p>

56、;<p>  tempy=t(tempx)</p><p>  tempn=array(0,dim=c(n,0))</p><p>  for(i in 1:n) tempn=data.frame(tempn,c(simc))</p><p>  tempn=as.matrix(tempn)</p><p>  關(guān)聯(lián)度=gld[

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論