基于Hadoop的用戶特征數(shù)據(jù)統(tǒng)一分析平臺設計與實現(xiàn).pdf_第1頁
已閱讀1頁,還剩99頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、近年來,隨著互聯(lián)網(wǎng)用戶越來越多,用戶行為信息量不斷增加,其增長速度讓人感到不可思議,根據(jù)一個互聯(lián)網(wǎng)企業(yè)的統(tǒng)計,用戶在網(wǎng)絡上購買某一商品前,平均需要打開五個不同網(wǎng)店地址,瀏覽網(wǎng)頁超過三十個,搜索次數(shù)大于十次。這些信息具有較大的分析價值,從中可以分析出用戶的相關特征,從而可以為用戶提供周到的推薦服務,這對公司和用戶自身都是有益的。目前,面向用戶特征數(shù)據(jù)分析的應用越來越多,導致數(shù)據(jù)分散、工作量重復等問題,缺少一個統(tǒng)一的方案來解決此類問題,因此

2、開發(fā)一個用戶特征數(shù)據(jù)統(tǒng)一分析平臺變得越來越有必要。
  本文首先簡介了Hadoop大數(shù)據(jù)處理的研究現(xiàn)狀,然后闡述了用戶特征數(shù)據(jù)分析的研究現(xiàn)狀,為開發(fā)該系統(tǒng)提供了必要的參考,同時介紹了用戶特征數(shù)據(jù)分析相關的應用。在需求分析階段,制定了該平臺的各項需求,根據(jù)其需求,對平臺做了詳細的設計,從功能的不同的角度出發(fā),將平臺劃分為數(shù)據(jù)采集模塊、數(shù)據(jù)預處理模塊、模型建立模塊和用戶特征查詢模塊。數(shù)據(jù)采集模塊支持不同方式的采集。預處理模塊提供了一個

3、預處理框架,可以根據(jù)需求自定義操作順序和操作內(nèi)容,使得預處理過程更加方便和靈活,目前平臺支持封裝、切詞、特征提取、權值計算、數(shù)據(jù)格式化等預處理操作。在模型建立階段,平臺利用支持向量機分類算法、樸素貝葉斯分類算法和Adaboost算法,通過訓練生成模型,以供預測需要。特征查詢模塊對外提供了遠程調(diào)用的接口,內(nèi)部實現(xiàn)了LRU緩沖區(qū),提高了平臺性能。為了體現(xiàn)平臺的可用性,基于平臺實現(xiàn)了用戶性別識別、用戶年齡識別和用戶消費能力識別的具體應用。在平

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論