版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、百度鳳巢是百度推出的全新廣告拍賣(mài)系統(tǒng),其以每天數(shù)以?xún)|計(jì)的網(wǎng)頁(yè)搜索量為強(qiáng)大后盾,為推廣商戶(hù)帶來(lái)巨大經(jīng)濟(jì)效益的同時(shí)也為百度帶來(lái)了巨大的經(jīng)濟(jì)收入,截至2010年第三季度末,來(lái)自鳳巢的營(yíng)收已占百度總營(yíng)收的20%以上。然而從線上運(yùn)行以及用戶(hù)反饋情況來(lái)看,鳳巢在廣告質(zhì)量度計(jì)算、展現(xiàn)以及廣告優(yōu)化等功能方面仍存在較多問(wèn)題,這些問(wèn)題不僅會(huì)給用戶(hù)帶來(lái)經(jīng)濟(jì)損失還會(huì)為鳳巢造成負(fù)面影響。為此,本論文針對(duì)鳳巢的重要業(yè)務(wù)點(diǎn),設(shè)計(jì)并實(shí)現(xiàn)了基于Hadoop的海量廣告日志
2、分析系統(tǒng),旨在從海量的廣告日志中分析挖掘出異常數(shù)據(jù),并從不同維度對(duì)異常數(shù)據(jù)進(jìn)行統(tǒng)計(jì)以及可視化展示,以幫助鳳巢有效發(fā)現(xiàn)潛在的問(wèn)題,對(duì)異常產(chǎn)生的內(nèi)因進(jìn)行深入分析研究,找出問(wèn)題來(lái)源以提出有效的解決方案。
首先,本文基于鳳巢的業(yè)務(wù)功能確定了日志分析系統(tǒng)的實(shí)際需求;然后針對(duì)該需求,設(shè)計(jì)了本海量日志分析系統(tǒng)的功能結(jié)構(gòu),分為日志解析模塊、日志分析挖掘模塊以及Web展示模塊。日志解析模塊完成原始日志的數(shù)據(jù)預(yù)處理操作。日志分析挖掘模塊作為系統(tǒng)的
3、核心部分,為不同的業(yè)務(wù)監(jiān)控項(xiàng)建立計(jì)算規(guī)則模型,從經(jīng)過(guò)預(yù)處理的海量日志數(shù)據(jù)中分析挖掘出各個(gè)業(yè)務(wù)點(diǎn)的異常數(shù)據(jù),然后對(duì)異常數(shù)據(jù)進(jìn)行多維度的過(guò)濾統(tǒng)計(jì),該模塊主要包括廣告質(zhì)量度、廣告審核以及廣告優(yōu)化建議三個(gè)業(yè)務(wù)專(zhuān)題。Web展現(xiàn)模塊通過(guò)動(dòng)態(tài)趨勢(shì)圖以及表格等形式在網(wǎng)頁(yè)上對(duì)分析統(tǒng)計(jì)結(jié)果進(jìn)行可視化展現(xiàn)。
在系統(tǒng)的實(shí)現(xiàn)技術(shù)上,日志解析和日志分析挖掘模塊充分利用了Hadoop在處理海量數(shù)據(jù)方面的優(yōu)勢(shì),將海量的原始日志及分析結(jié)果存儲(chǔ)于HDFS(Had
4、oop Distributed File System)中,基于Hadoop的MapReduce算法建立不同的MapReduce計(jì)算程序集來(lái)實(shí)現(xiàn)數(shù)據(jù)的處理。Web展現(xiàn)模塊使用LAMP(Linux+Apache+MySQL+PHP)技術(shù),采用較流行的Web應(yīng)用程序開(kāi)源框架Cake PHP實(shí)現(xiàn)。最后,系統(tǒng)從功能和非功能上進(jìn)行了測(cè)試并得到驗(yàn)證。
從商用效果來(lái)看,通過(guò)本系統(tǒng)及時(shí)發(fā)現(xiàn)了潛在問(wèn)題,有效減少了鳳巢的線上錯(cuò)誤率,為決策發(fā)展提供
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于Hadoop的海量視頻日志分析系統(tǒng)設(shè)計(jì).pdf
- 基于hadoop的海量搜索日志分析平臺(tái)的設(shè)計(jì)和實(shí)現(xiàn).pdf
- 基于Hadoop的海量數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Hadoop的海量數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- Hadoop中海量日志文件的處理分析.pdf
- 基于Hadoop的日志統(tǒng)計(jì)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 一個(gè)基于Hadoop的Web日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Hadoop的海量圖像檢索的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于并行計(jì)算的海量日志分析系統(tǒng)實(shí)現(xiàn).pdf
- 基于Hadoop海量日志文件的網(wǎng)站并發(fā)性能分析.pdf
- 海量網(wǎng)絡(luò)流量日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于分布式計(jì)算平臺(tái)的海量日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Hadoop的海量日志數(shù)據(jù)處理研究與應(yīng)用.pdf
- 基于Hadoop的海量氣象數(shù)據(jù)的存儲(chǔ)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Hadoop平臺(tái)和查詢(xún)?nèi)罩镜挠脩?hù)行為分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Hadoop的運(yùn)維日志采集分析平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Hadoop海量數(shù)據(jù)分析的反腐云計(jì)算設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Hadoop平臺(tái)的日志分析系統(tǒng).pdf
- 基于HADOOP的海量錄音文件存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Hadoop的分布式中央日志系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
評(píng)論
0/150
提交評(píng)論