基于Web日志挖掘和關(guān)聯(lián)規(guī)則的個(gè)性化推薦系統(tǒng)模型研究.pdf_第1頁
已閱讀1頁,還剩59頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、隨著科學(xué)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)提供的豐富信息在助推社會(huì)產(chǎn)業(yè)部門升級的同時(shí)也帶來了一些問題,如信息的急速增長易產(chǎn)生大爆炸效應(yīng),造成“信息過載”。同時(shí),為了對互聯(lián)網(wǎng)用戶提供更加全面的信息資源,網(wǎng)站經(jīng)營者和管理者不斷向Web站點(diǎn)中添加信息,這就使得Web站點(diǎn)的拓?fù)浣Y(jié)構(gòu)日益復(fù)雜化。由于向Web站點(diǎn)新添加的資源可能不符合用戶的真實(shí)需求,易造成用戶瀏覽Web站點(diǎn)時(shí)出現(xiàn)“資源迷向”。因此,如何從海量的數(shù)據(jù)中發(fā)現(xiàn)人們感興趣的信息是我們面臨的問題。所以,

2、出現(xiàn)了數(shù)據(jù)挖掘在Web站點(diǎn)分析中的應(yīng)用,即Web挖掘。
  Web挖掘是一項(xiàng)綜合技術(shù),它涉及Web技術(shù)、數(shù)據(jù)挖掘、信息學(xué)、計(jì)算機(jī)語言學(xué)等多個(gè)領(lǐng)域。Web挖掘可以在很多方面發(fā)揮作用,如對搜索引擎的結(jié)構(gòu)進(jìn)行挖掘,確定權(quán)威頁面,Web文檔分類,Web使用挖掘,智能查詢,建立Metaweb數(shù)據(jù)倉庫等。Web使用挖掘就是從服務(wù)器日志中發(fā)現(xiàn)用戶行為特征和導(dǎo)航模式。本文系統(tǒng)闡述了數(shù)據(jù)挖掘、Web挖掘以及Web使用挖掘的整個(gè)流程,重點(diǎn)研究了Web

3、日志預(yù)處理過程、關(guān)聯(lián)規(guī)則挖掘模型和滑動(dòng)窗口推薦模型三方面內(nèi)容。
  首先,Web日志預(yù)處理過程包括:數(shù)據(jù)清理、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充和事務(wù)識(shí)別。經(jīng)過預(yù)處理階段,可以從用戶訪問信息中去除大量無關(guān)的數(shù)據(jù),同時(shí)也對Internet上的用戶訪問信息進(jìn)行結(jié)構(gòu)化處理,并將其以事務(wù)或會(huì)話的形式保存在關(guān)系數(shù)據(jù)庫中。
  然后,對預(yù)處理后的數(shù)據(jù),本文采用加權(quán)關(guān)聯(lián)規(guī)則對其進(jìn)行挖掘。
  經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法Apriori不僅能夠發(fā)

4、現(xiàn)Web訪問頁面之間的相互聯(lián)系,而且對發(fā)現(xiàn)用戶偏好導(dǎo)航模式有重要作用。但是,將Apriori算法應(yīng)用于Web日志挖掘也有其主觀局限性。Apriori算法隱含的假設(shè)是所有頁面的重要性是相同的,它并沒有考慮到頁面之間的差異性,因此,使用該規(guī)則挖掘出來的數(shù)據(jù)中可能會(huì)遺漏掉某些用戶感興趣的頁面。
  針對Apriori算法在Web日志挖掘應(yīng)用中存在的不足,本文引入“頁面權(quán)值”這一概念,它反映了用戶對頁面的真實(shí)喜好。根據(jù)頁面權(quán)值的定義,我們

5、綜合考慮用戶對頁面的瀏覽時(shí)間和訪問頻次兩個(gè)因素,并在此基礎(chǔ)上提出了W-Aprio算法。該算法采用擴(kuò)展布爾矩陣的表示方式來描述事務(wù)數(shù)據(jù)庫,這樣有助于事務(wù)數(shù)據(jù)庫的壓縮。同時(shí),權(quán)值的引入也有利于區(qū)分頁面之間的差異,有效地解決了挖掘過程中遺漏某些重要頁面的問題。
  最后,本文將挖掘得到的規(guī)則形成規(guī)則庫,結(jié)合使用滑動(dòng)窗口技術(shù),設(shè)計(jì)實(shí)踐基于關(guān)聯(lián)規(guī)則挖掘的Web日志推薦模型。該模型不僅能夠有效解決“信息過載”和“資源迷向”等問題。而且可以將用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論