版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、最近十年來全世界網(wǎng)民的數(shù)量呈現(xiàn)快速增長的趨勢,截止2011年1月全世界網(wǎng)民的數(shù)量已經(jīng)超過了20億。在線用戶規(guī)模的急劇擴大使得用戶在線行為分析在很多研究領(lǐng)域的意義顯得越來越重大,如在經(jīng)濟、學(xué)術(shù)以及社會事務(wù)等領(lǐng)域。其中,最具有商業(yè)價值要數(shù)用戶在線商業(yè)意圖(OnlineCommercial Intention)的挖掘。通過分析用戶的在線行為來挖掘出用戶個人興趣及傾向,為有針對性的廣告投放提供有力的依據(jù),從而達到更好的廣告推薦效果。
2、文中提出了一種檢測用戶商業(yè)意圖的新方法架構(gòu),通過分析用戶瀏覽過的網(wǎng)頁信息,從中挖掘出用戶個性化的購買傾向。借助于大型購物平臺上搜索引擎的歷史記錄以及搜索結(jié)果頁面上商品的點擊分布情況,通過統(tǒng)計分析建立起搜索詞與商品類目之間的關(guān)聯(lián)—關(guān)鍵詞詞典。利用這一詞典我們可以從用戶瀏覽過的網(wǎng)頁內(nèi)容中抽取出一系列能夠體現(xiàn)用戶商業(yè)意圖的關(guān)鍵詞,關(guān)鍵詞選取的標準包括關(guān)鍵詞的TF、ICF、QF以及關(guān)鍵詞本身的長度。每一個關(guān)鍵詞根據(jù)關(guān)鍵詞詞典將被映射到一系列的商
3、品類目,其中分值最高的幾個商品類目將視為頁面的商業(yè)意圖檢測結(jié)果。為了消除一些不相關(guān)類目對于用戶商業(yè)意圖結(jié)果的影響并使得OCI結(jié)果更加集中,類目的相似度模型被引入來修正OCI結(jié)果中的分值。用戶每天的商業(yè)意圖通過聚合其當(dāng)天瀏覽過頁面的OCI結(jié)果得到。為了體現(xiàn)出商業(yè)意圖短暫、靈活多變的特點,我們提出了用戶時間維度上的商業(yè)意圖模型來更真實地體現(xiàn)出用戶的實時商業(yè)意圖變化。
為了評估所提出OCI檢測方法的效果,在實驗部分,通過制定統(tǒng)一的評
4、測標準,評測人員對于隨機抽取的1036個測試頁面的商業(yè)意圖結(jié)果進行了人工標注。從標注結(jié)果與系統(tǒng)檢測結(jié)果的對比中可知,在檢測商業(yè)意圖存在的角度,系統(tǒng)判斷的準確率達到了70%,召回率達到了將近90%;而從系統(tǒng)匹商業(yè)類目的角度來看,系統(tǒng)匹配商業(yè)類目的正確率達到了86%。通過后續(xù)的實驗我們還發(fā)現(xiàn),通過限制頁面關(guān)鍵詞的數(shù)量以及設(shè)定匹配類目最小闕值等方法可以有效地提升系統(tǒng)檢測商業(yè)意圖的整體效果。
作為最終的分析結(jié)果,系統(tǒng)以一系列商品類目的
5、形式給出了用戶在一段時間內(nèi)的商業(yè)意圖。根據(jù)商品類目在一段時間內(nèi)的分值變化情況,可以推測出用戶在這一段時間內(nèi)購買某一類商品的傾向及對應(yīng)程度。通過構(gòu)建合適的用戶購買行為模型,可以對目標用戶進行有針對性的商品推薦。
借助于大規(guī)模分布式計算架構(gòu),文中所提到的OCI檢測系統(tǒng)流程可以應(yīng)用于大規(guī)模用戶行為數(shù)據(jù)的分析。正在運營的系統(tǒng)每天可以處理十億級別的用戶瀏覽記錄,用來分析得到幾千萬用戶的具體商業(yè)意圖,每個小時的數(shù)據(jù)處理量大約在150GB。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大規(guī)模語義數(shù)據(jù)分析系統(tǒng).pdf
- 超大規(guī)模用戶用電智能采集與數(shù)據(jù)分析平臺設(shè)計.pdf
- 基于大規(guī)模位置和消費數(shù)據(jù)的用戶行為理解.pdf
- 基于復(fù)雜網(wǎng)絡(luò)的大規(guī)模電信數(shù)據(jù)分析研究.pdf
- 大規(guī)模高速網(wǎng)絡(luò)數(shù)據(jù)分析系統(tǒng)的設(shè)計與實現(xiàn).pdf
- 面向大規(guī)模數(shù)據(jù)分析與分類的正則化回歸算法.pdf
- 基于大規(guī)模手機感知數(shù)據(jù)的用戶特性挖掘.pdf
- 基于海量數(shù)據(jù)的用戶行為數(shù)據(jù)分析系統(tǒng)研究與實現(xiàn).pdf
- 蛋白質(zhì)組質(zhì)譜數(shù)據(jù)分析平臺的建立及其在大規(guī)模數(shù)據(jù)分析中的應(yīng)用.pdf
- 基于微博用戶行為的數(shù)學(xué)建模和數(shù)據(jù)分析.pdf
- 基于用戶行為數(shù)據(jù)分析的移動互聯(lián)業(yè)務(wù)推薦模型.pdf
- 社交網(wǎng)絡(luò)大數(shù)據(jù)分析平臺及用戶轉(zhuǎn)發(fā)行為分析.pdf
- 7471.面向大規(guī)模在線學(xué)習(xí)活動流的行為序列分析
- 基于大規(guī)模數(shù)據(jù)挖掘的VOD系統(tǒng)用戶忠誠度演進分析.pdf
- 基于用戶行為數(shù)據(jù)分析的個性化推薦算法研究.pdf
- “百里毅行”大規(guī)模運動應(yīng)用系統(tǒng)及數(shù)據(jù)分析研究.pdf
- H-KTT聚類算法及其在大規(guī)模AMI數(shù)據(jù)分析中的應(yīng)用.pdf
- 用戶行為視頻音頻數(shù)據(jù)分析工具的研究與開發(fā).pdf
- 基于用戶行為數(shù)據(jù)分析的彩鈴業(yè)務(wù)渠道精確營銷.pdf
- 大規(guī)模數(shù)據(jù)聚類分析方法研究.pdf
評論
0/150
提交評論