

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著Internet的迅速發(fā)展,人們對(duì)網(wǎng)絡(luò)的依賴(lài)已經(jīng)越來(lái)越大,而網(wǎng)絡(luò)中的信息量隨著網(wǎng)絡(luò)用戶(hù)及網(wǎng)絡(luò)資源的發(fā)展而迅速膨脹,人們?cè)谛畔⒌暮Q笾校仓饾u失去方向,用戶(hù)如何從這巨大的信息量當(dāng)中尋找出很小的一部分感興趣的信息,商家如何改善自己的經(jīng)營(yíng)方式,網(wǎng)站如何改善自己的站點(diǎn),這些問(wèn)題的提出就引出了一個(gè)新的研究方向,即Web挖掘的研究,而Web挖掘當(dāng)中,最重要的一個(gè)研究方向即為Web日志挖掘。所謂Web日志挖掘就是將Web日志數(shù)據(jù)引入到傳統(tǒng)的數(shù)據(jù)挖
2、掘當(dāng)中,挖掘出知識(shí)的過(guò)程。Web日志數(shù)據(jù)本身與傳統(tǒng)數(shù)據(jù)相比有一些獨(dú)特的特點(diǎn),這對(duì)有關(guān)的研究工作也帶來(lái)了一定的挑戰(zhàn)。目前,對(duì)于Web挖掘,尤其是Web日志挖掘的研究越來(lái)越多。
本文通過(guò)學(xué)習(xí)大量的文獻(xiàn)資料,系統(tǒng)的介紹了Web日志挖掘、聚類(lèi)技術(shù)的基本理論,并針對(duì)部分算法的缺陷提出改進(jìn)方法,并通過(guò)實(shí)驗(yàn)進(jìn)行論證。
首先,介紹了當(dāng)前的研究現(xiàn)狀,分別包括國(guó)內(nèi)和國(guó)外的研究情況,相比之下,國(guó)外的研究比較成熟,而國(guó)內(nèi)主要的研究依
3、然處于理論研究階段。然后,介紹了數(shù)據(jù)挖掘以及Web日志挖掘的理論內(nèi)容,包括挖掘的過(guò)程以及挖掘的數(shù)據(jù)特點(diǎn)等。
其次,重點(diǎn)介紹了Web日志挖掘的數(shù)據(jù)預(yù)處理的理論知識(shí)以及目前的研究方法,數(shù)據(jù)預(yù)處理的過(guò)程分別為數(shù)據(jù)清理、用戶(hù)識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充和事務(wù)識(shí)別。針對(duì)目前的研究情況,提出了一種預(yù)處理的改進(jìn)方法,在會(huì)話識(shí)別時(shí),使用用戶(hù)訪問(wèn)樹(shù)的方法,在不知道網(wǎng)站拓?fù)浣Y(jié)構(gòu)的情況下,依然能夠得到用戶(hù)的會(huì)話,并且可以省略掉路徑補(bǔ)充的步驟,直接得
4、到用戶(hù)的事務(wù)。在事務(wù)識(shí)別過(guò)程當(dāng)中,對(duì)事務(wù)當(dāng)中的每個(gè)頁(yè)面進(jìn)行分類(lèi)并記錄,分別記為導(dǎo)航頁(yè)面和內(nèi)容頁(yè)面,如果事務(wù)中所有的頁(yè)面均為導(dǎo)航頁(yè)面,將其看作是無(wú)效事務(wù),將其去除,大大的減少了數(shù)據(jù)庫(kù)的容量,但并不減少數(shù)據(jù)的信息量,這對(duì)后期的研究工作也是非常有意義的。
最后,詳細(xì)介紹了聚類(lèi)分析的相關(guān)理論知識(shí),并給出了頁(yè)面興趣度、相似度的定義,然后重點(diǎn)介紹了K-means算法,并對(duì)其優(yōu)缺點(diǎn)進(jìn)行分析。針對(duì)K-means算法原有的初始中心點(diǎn)的選擇問(wèn)
5、題、噪聲數(shù)據(jù)的影響等提出改進(jìn)方法,使用一種模糊的劃分原則將整個(gè)數(shù)據(jù)集分類(lèi),再使用密度的方法對(duì)這個(gè)劃分進(jìn)行調(diào)整,從而得出K個(gè)高密度的區(qū)域。這樣得出的K值比依靠經(jīng)驗(yàn)獲得的K值更合理,并從這K個(gè)高密度區(qū)域分別選擇一個(gè)點(diǎn)作為初始中心點(diǎn),這比隨機(jī)選擇的K個(gè)初始中心點(diǎn)得到的聚類(lèi)結(jié)果更穩(wěn)定、更加合理。同時(shí),在對(duì)均值計(jì)算時(shí)引入權(quán)重,目的是為了減小噪聲數(shù)據(jù)對(duì)均值點(diǎn)的確定的影響。計(jì)算加權(quán)均值得到的質(zhì)心能夠更加靠近簇的距離較近的數(shù)據(jù)堆,從而削弱了包含孤立點(diǎn)的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于聚類(lèi)的web日志挖掘
- 基于聚類(lèi)算法的Web日志挖掘應(yīng)用研究.pdf
- 基于Web日志挖掘的用戶(hù)聚類(lèi)研究.pdf
- 一種基于Web日志挖掘聚類(lèi)算法的研究.pdf
- WEB日志和子空間聚類(lèi)挖掘算法研究.pdf
- 基于web日志挖掘的用戶(hù)會(huì)話聚類(lèi)算法的研究與應(yīng)用.pdf
- 基于聚類(lèi)算法的WEB日志挖掘系統(tǒng)研究與應(yīng)用.pdf
- 基于MapReduce用戶(hù)聚類(lèi)算法在Web日志挖掘中應(yīng)用.pdf
- 模糊聚類(lèi)算法研究及在Web日志挖掘中的應(yīng)用.pdf
- 基于仿生類(lèi)算法的Web日志挖掘技術(shù)研究.pdf
- 基于Web文本挖掘的聚類(lèi)算法研究.pdf
- 基于K-均值聚類(lèi)算法的Web日志挖掘技術(shù)的研究和應(yīng)用.pdf
- 多標(biāo)記傳播聚類(lèi)算法及其在Web日志挖掘中的應(yīng)用.pdf
- Web挖掘中聚類(lèi)算法的研究.pdf
- 基于矩陣模糊聚類(lèi)的Web使用挖掘算法.pdf
- 基于WEB日志挖掘的頻繁模式挖掘算法研究.pdf
- 基于VSW擴(kuò)展算法和經(jīng)典聚類(lèi)算法的Web挖掘研究.pdf
- 基于Web訪問(wèn)日志的用戶(hù)聚類(lèi)研究.pdf
- 基于蟻群算法的Web日志挖掘研究.pdf
- 基于Web日志的網(wǎng)絡(luò)使用挖掘算法研究.pdf
評(píng)論
0/150
提交評(píng)論