版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著Internet的迅猛發(fā)展與互聯(lián)網(wǎng)用戶(hù)的快速增加,Internet上的數(shù)據(jù)也呈爆炸式的增長(zhǎng)。對(duì)于互聯(lián)網(wǎng)提供商來(lái)說(shuō),這些海量數(shù)據(jù)中隱藏著大量有用的信息和知識(shí),而這些信息和知識(shí)對(duì)分析用戶(hù)的各項(xiàng)需求和評(píng)估產(chǎn)品的效果有著重要的意義。但是長(zhǎng)期以來(lái),海量數(shù)據(jù)的分析和處理都是一個(gè)艱巨而復(fù)雜的任務(wù),高速準(zhǔn)確的從這些海量數(shù)據(jù)中挖掘出有用的信息和知識(shí),可以讓互聯(lián)網(wǎng)提供商在激烈的商業(yè)競(jìng)爭(zhēng)中占領(lǐng)先機(jī),從而獲取商業(yè)上的成功與經(jīng)濟(jì)利益。
在這些需要處
2、理的海量信息中包括了存儲(chǔ)于網(wǎng)站服務(wù)器上的用戶(hù)訪問(wèn)Web頁(yè)面的日志記錄,從這些日志記錄中分析和發(fā)現(xiàn)用戶(hù)訪問(wèn)的規(guī)律和模式對(duì)互聯(lián)網(wǎng)提供商有著重要的意義,它可以使Web站點(diǎn)的結(jié)構(gòu)更為合理,更好的面向用戶(hù)提供有針對(duì)性商業(yè)服務(wù),優(yōu)化用戶(hù)體驗(yàn)。但是存在于這些日志中龐大的數(shù)據(jù)量和信息已經(jīng)不是傳統(tǒng)單機(jī)串行方式能夠應(yīng)對(duì)的了,這樣一項(xiàng)新興的技術(shù)-云計(jì)算進(jìn)入了大家的視野。云計(jì)算作為一項(xiàng)新興的技術(shù),是網(wǎng)格計(jì)算、分布式計(jì)算、并行計(jì)算等技術(shù)相互融合的產(chǎn)物,它旨在將眾
3、多較為低端的計(jì)算實(shí)體整合為一個(gè)完美的系統(tǒng),因而被眾多IT巨頭所看重,稱(chēng)為未來(lái)IT技術(shù)發(fā)展的一個(gè)重要方向。
MapReduce編程模型作為云計(jì)算中的一項(xiàng)核心技術(shù),是Google公司于2004年提出的,它提供了一系列簡(jiǎn)單而有強(qiáng)大的接口,通過(guò)這些接口,可以把大尺度的計(jì)算自動(dòng)并發(fā)和分布執(zhí)行,從而實(shí)現(xiàn)大規(guī)模分布式并行計(jì)算。Hadoop作為MapReduce的開(kāi)源實(shí)現(xiàn),一經(jīng)推出就引起了廣大IT廠商的注意,并得到了廣泛的應(yīng)用,具有很高的商業(yè)
4、價(jià)值與應(yīng)用前景。
本文介紹了Web日志挖掘的整個(gè)過(guò)程,并對(duì)Hadoop平臺(tái)相關(guān)技術(shù)與開(kāi)發(fā)方法進(jìn)行探討,詳細(xì)介紹了Hadoop分布式文件系統(tǒng)HDFS與Hadoop中的MapReduce框架,在前文的基礎(chǔ)上對(duì)關(guān)聯(lián)規(guī)則挖掘算法的重點(diǎn)研究。在通過(guò)研究了幾種傳統(tǒng)串行、并行關(guān)聯(lián)規(guī)則算法,分析各自的優(yōu)缺點(diǎn)之后,針對(duì)MapReduce編程模型的特點(diǎn)設(shè)計(jì)改進(jìn)了基于劃分的AprioriTid算法。在文章的最后,實(shí)現(xiàn)了基于Hadoop平臺(tái)的Web日
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于MapReduce用戶(hù)聚類(lèi)算法在Web日志挖掘中應(yīng)用.pdf
- 序列模式挖掘在Web日志挖掘中應(yīng)用研究.pdf
- 數(shù)據(jù)挖掘及其在Web日志挖掘中的應(yīng)用研究.pdf
- WEB日志數(shù)據(jù)挖掘在MOODLE中的研究與應(yīng)用.pdf
- 關(guān)聯(lián)規(guī)則挖掘算法在web日志挖掘中的應(yīng)用研究.pdf
- 蟻群算法在Web日志挖掘中的研究與應(yīng)用.pdf
- Web日志挖掘在優(yōu)化教育站點(diǎn)的應(yīng)用.pdf
- 聚類(lèi)分析及其在Web日志挖掘中的應(yīng)用研究.pdf
- 人工免疫聚類(lèi)在Web日志挖掘中的應(yīng)用.pdf
- 數(shù)據(jù)挖掘的算法研究及其在Web日志分析中的應(yīng)用.pdf
- Web日志中序列模式挖掘及其應(yīng)用.pdf
- 云計(jì)算技術(shù)在web日志挖掘中的應(yīng)用研究.pdf
- 文本挖掘在Web日志數(shù)據(jù)預(yù)處理中的應(yīng)用研究.pdf
- Web日志挖掘技術(shù)在個(gè)性化信息推薦中的應(yīng)用.pdf
- 模糊聚類(lèi)算法研究及在Web日志挖掘中的應(yīng)用.pdf
- 基于Web日志的數(shù)據(jù)挖掘及其在Web預(yù)取中的應(yīng)用研究.pdf
- web日志挖掘應(yīng)用研究
- Web日志挖掘應(yīng)用研究.pdf
- 一種頻繁子樹(shù)挖掘算法在Web日志挖掘中的應(yīng)用研究.pdf
- 多標(biāo)記傳播聚類(lèi)算法及其在Web日志挖掘中的應(yīng)用.pdf
評(píng)論
0/150
提交評(píng)論