版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、在當(dāng)今信息爆炸時(shí)代,Web是獲取任何信息的最佳來(lái)源或就某件事做出決策的重要途徑。人們?cè)谧龀瞿稠?xiàng)決定之前像購(gòu)買任何產(chǎn)品,預(yù)訂電影票等都或多或少受到來(lái)自Web推薦的影響。由此可見(jiàn),在這種情況下,推薦系統(tǒng)發(fā)揮重要作用。
推薦系統(tǒng)已經(jīng)廣泛運(yùn)用在各個(gè)領(lǐng)域像電子商務(wù),電影,音樂(lè),搜索引擎和新聞網(wǎng)站等等。它的設(shè)計(jì)初衷就是基于用戶的長(zhǎng)期或短期喜好給它的所有注冊(cè)用戶和潛在用戶推薦符合他們自己興趣的產(chǎn)品,包括組合選擇。而這些用戶喜好可以分為顯式信
2、息和隱式信息。由于隱式信息過(guò)于隱晦,需要推薦系統(tǒng)本身自發(fā)去收集和挖掘,而這些隱式信息往往存在于用戶過(guò)去的購(gòu)買記錄,用戶過(guò)去的瀏覽網(wǎng)站,用戶曾經(jīng)點(diǎn)擊的鏈接,瀏覽器cookies甚至地理位置信息。顯式信息就比隱式信息體現(xiàn)用戶的喜好顯著的多。顯式信息采用的是有效的反饋,比如說(shuō)購(gòu)買或使用過(guò)該項(xiàng)目后的一次用戶評(píng)分。綜上所述,我們就能將用戶喜好數(shù)據(jù)化表示成用戶評(píng)分記錄,以用戶-物品矩陣的形式存儲(chǔ)。
協(xié)同過(guò)濾是推薦系統(tǒng)中眾所周知和最廣泛的技
3、術(shù)之一,不僅在學(xué)術(shù)界得到了深入的研究,而且在工業(yè)界也有廣泛的應(yīng)用。其基本思想是根據(jù)用戶的偏好來(lái)預(yù)測(cè)用戶感興趣的項(xiàng)目。并且由于在電子商務(wù)中精準(zhǔn)推薦的出色表現(xiàn),該項(xiàng)技術(shù)已在該領(lǐng)域得到成熟的運(yùn)用。協(xié)同過(guò)濾算法可以簡(jiǎn)單分為兩類,一類是基于近鄰的協(xié)同過(guò)濾算法,還有一類是基于模型的協(xié)同過(guò)濾算法。
一、基于近鄰的協(xié)同過(guò)濾算法。在這個(gè)算法中還需再細(xì)分,基于用戶的協(xié)同過(guò)濾算法和基于物品的協(xié)同過(guò)濾算法。他們的基本思想都是需充分運(yùn)用相似用戶或相似物
4、品構(gòu)成的近鄰組合,去挖掘他們近鄰組合的信息來(lái)給近鄰組合的本體-被推薦的對(duì)象來(lái)進(jìn)行符合他的興趣物品推薦。
在基于物品的協(xié)同過(guò)濾算法中,關(guān)于近鄰組合的定義是由不同用戶打分產(chǎn)生的有著相同或相似分?jǐn)?shù)的物品集合。然后系統(tǒng)推定用戶喜歡和他以前喜歡的東西相似的東西—近鄰集合,進(jìn)行打分。
在基于用戶的協(xié)同過(guò)濾算法中,對(duì)于近鄰組合的定義是一組對(duì)同一個(gè)物品打分相同或類似的用戶集合。該算法的主要思想是為了將有著相同或相似的興趣愛(ài)好的用戶聚
5、集在一起。因?yàn)閷?duì)于一個(gè)物品,用戶甲是存在潛在可能性喜歡在過(guò)去記錄中有著相同或相似愛(ài)好的用戶乙喜歡的商品。
鑒于該算法必須對(duì)所有用戶的所有商品的評(píng)分?jǐn)?shù)據(jù)進(jìn)行處理才能對(duì)單個(gè)用戶進(jìn)行預(yù)測(cè)推薦,所以該算法提出了嚴(yán)重的可擴(kuò)展性問(wèn)題。倘若存在海量的用戶、海量的項(xiàng)目以及海量的用戶對(duì)物品的評(píng)分記錄,此法不適合實(shí)時(shí)推薦系統(tǒng)。此外該法比推薦系統(tǒng)中的基于模型的協(xié)同過(guò)濾的推薦算法更加敏感。
二、基于模型的協(xié)同過(guò)濾算法。不同于基于近鄰的協(xié)同過(guò)
6、濾算法直接采用用戶評(píng)分矩陣來(lái)學(xué)習(xí)預(yù)測(cè)模型進(jìn)而產(chǎn)生推薦的方法,基于模型的協(xié)同過(guò)濾算法的模型建立過(guò)程是由不同的機(jī)器學(xué)習(xí)算法如貝葉斯網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)和奇異值分解進(jìn)行學(xué)習(xí)預(yù)測(cè)模型進(jìn)而給單個(gè)用戶產(chǎn)生推薦結(jié)果。
例如在線系統(tǒng)需要高效可用性和低時(shí)延的響應(yīng)時(shí)間,因?yàn)樗鼈儽仨殔f(xié)同合作并快速處理來(lái)自所有用戶活動(dòng)所產(chǎn)生的數(shù)據(jù)流,進(jìn)而產(chǎn)生推薦結(jié)果。而所有這些過(guò)程都必須在用戶等待幾秒的時(shí)間里開(kāi)始并結(jié)束。因?yàn)橥扑]算法會(huì)選擇的最符合用戶興趣的物品,這當(dāng)然必須
7、在用戶瀏覽網(wǎng)站時(shí)向用戶顯示。繼而就有需要服務(wù)的用戶數(shù)量越多,要推薦的商品越多,所產(chǎn)生的計(jì)算量繼而會(huì)隨之增大大,從而增加生成給每個(gè)用戶建議所需的時(shí)間。
為了解決這個(gè)問(wèn)題,一些學(xué)者提出了一類快速簡(jiǎn)單的基于模型的協(xié)同過(guò)濾算法,稱為潛在因子模型。他們?cè)噲D確定解釋觀察到的用戶評(píng)分的相關(guān)特征,也被稱為潛在因素。這些功能或者說(shuō)是潛在因素可以解釋為用戶的偏好和推薦的項(xiàng)目的特征。充分使用這些潛在因素,可以推斷出用戶的偏好,并為他或她推薦符合自己
8、興趣的物品。而成功對(duì)潛在因素建模的關(guān)鍵技術(shù)是矩陣分解。由于基于模型的協(xié)同過(guò)濾算法它們結(jié)合了可擴(kuò)展性和預(yù)測(cè)準(zhǔn)確性,因此它們已經(jīng)在實(shí)時(shí)推薦系統(tǒng)中得到廣泛運(yùn)用。此外,基于模型的協(xié)同過(guò)濾算法它們對(duì)不同現(xiàn)實(shí)實(shí)際情況建模的靈活性提供了不同的建模方法。因?yàn)樗鼈冊(cè)试S并入附加信息,如隱含反饋,時(shí)間效應(yīng)和置信水平,這樣使得會(huì)優(yōu)于基于近鄰的協(xié)同過(guò)濾算法產(chǎn)生推薦結(jié)果。
可擴(kuò)展性和高性能也是一個(gè)推薦系統(tǒng)的重要指標(biāo),因?yàn)橛?jì)算的復(fù)雜度會(huì)隨用戶和物品的增多而
9、有指數(shù)爆炸性增長(zhǎng)??紤]到推薦算法的效率,Map-Reduce的編程模型在對(duì)于機(jī)器學(xué)習(xí)的算法上并沒(méi)有體現(xiàn)出很好的優(yōu)勢(shì),原因在于機(jī)器學(xué)習(xí)的算法需要Map-Reduce編程框架隨著迭代的次數(shù)而不斷進(jìn)行在磁盤進(jìn)行讀寫(xiě)的I/O操作。基于上述的現(xiàn)狀,Apache Spark提出了基于內(nèi)存的處理大數(shù)據(jù)的快速通用引擎。
Spark是在Map-Reduce上發(fā)展而來(lái)的,保留了分布式并行計(jì)算的特點(diǎn)并改進(jìn)了Map-Reduce的明顯缺陷。Spark
10、是將中間數(shù)據(jù)保存在了內(nèi)存中,迭代運(yùn)算效率大大提高;其次Spark提出彈性分布式數(shù)據(jù)集RDD的抽象,達(dá)到了提高了自身對(duì)數(shù)據(jù)的容錯(cuò)性;最后,Spark對(duì)于數(shù)據(jù)集的操作沒(méi)有像Hadoop一樣只提供了Map和reduce的操作。大致可以分為兩類,一類是轉(zhuǎn)化(Transformations)操作,一類是執(zhí)行(Actions)操作,對(duì)于使用者提供了很好的友好性。
本文工作目標(biāo)是能夠充分運(yùn)用Spark自帶的機(jī)器學(xué)習(xí)庫(kù)構(gòu)建并實(shí)現(xiàn)基于最小二乘法
11、的協(xié)同過(guò)濾系統(tǒng)。交替最小二乘算法(ALS)可以隨著數(shù)據(jù)量規(guī)模的增大而對(duì)其進(jìn)行并行和優(yōu)化處理。在現(xiàn)實(shí)數(shù)據(jù)中,用戶評(píng)分矩陣往往都是比較稀疏的,這給計(jì)算并推薦產(chǎn)生巨大的計(jì)算壓力,但交替最小二乘算法能克服這點(diǎn)。在實(shí)驗(yàn)中,本文會(huì)比較部署在Linux單節(jié)點(diǎn)和部署在Linux集群的推薦效果。實(shí)驗(yàn)中使用的數(shù)據(jù)集是MovieLens。
本論文的貢獻(xiàn)如下:
1)介紹了現(xiàn)有的基本推薦算法,比較了各個(gè)算法之間的優(yōu)缺點(diǎn)以及適應(yīng)的場(chǎng)景。結(jié)合自身
12、工作的特點(diǎn),本文選取了適合自己的工作場(chǎng)景的協(xié)同過(guò)濾算法。
2)本文根據(jù)大數(shù)據(jù)平臺(tái)Spark的實(shí)驗(yàn)要求,搭建了一個(gè)主節(jié)點(diǎn),兩個(gè)附節(jié)點(diǎn)的實(shí)驗(yàn)集群。各個(gè)節(jié)點(diǎn)安裝的操作系統(tǒng)版本是Ubuntu16.04 LTS.1,使用HDFS存儲(chǔ)數(shù)據(jù)集并保存計(jì)算中的輸出結(jié)果,其中Hadoop的安裝版本是2.7.0,Spark快速通用大數(shù)據(jù)計(jì)算平臺(tái)安裝的版本是1.6.1.
3)本文在Spark大數(shù)據(jù)處理平臺(tái)上使用Scala編程語(yǔ)言實(shí)現(xiàn)交替最小
13、二乘算法(ALS)。實(shí)驗(yàn)中的數(shù)據(jù)集是來(lái)自電影領(lǐng)域的公開(kāi)發(fā)布的MovieLens數(shù)據(jù)集。首先,筆者了解了公開(kāi)MovieLens數(shù)據(jù)集的相關(guān)資料并為其找到最適合的ALS模型,換句話說(shuō),就是本文使用不同參數(shù)值的組合在公開(kāi)數(shù)據(jù)集MovieLens訓(xùn)練了交替最小二乘模型,進(jìn)而發(fā)現(xiàn)在測(cè)試集上具有較低均方根誤差(RMSE)的組合。充分使用訓(xùn)練出且優(yōu)化的參數(shù)來(lái)得到交替最小二乘法(ALS)模型。本文采用的實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)是根據(jù)測(cè)試集上的執(zhí)行時(shí)間和精度結(jié)果呈現(xiàn)
14、實(shí)驗(yàn)結(jié)果的好壞。
實(shí)驗(yàn)結(jié)果表明,通過(guò)使用Spark的MLlib庫(kù)實(shí)現(xiàn)的最佳匹配交替最小二乘模型展現(xiàn)了比較好的性能。該解決方案具有更好的性能。對(duì)于MovieLens數(shù)據(jù)集,測(cè)試集上的均方根誤差(RMSE)為0.800689025。
本文還繼續(xù)在實(shí)驗(yàn)研究中增加了具有可擴(kuò)展性實(shí)驗(yàn),換句話說(shuō)就是在搭建的三臺(tái)機(jī)器的實(shí)驗(yàn)集群上運(yùn)行訓(xùn)練好的最佳參數(shù)交替最小二乘模型。本文作者發(fā)現(xiàn)結(jié)果非常有利于Spark,因?yàn)樽钚《朔?ALS)在大
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于數(shù)據(jù)分類的交替最小二乘推薦算法的研究.pdf
- 基于協(xié)同過(guò)濾算法的電影推薦系統(tǒng)
- 基于協(xié)同過(guò)濾算法的音樂(lè)推薦系統(tǒng).pdf
- 基于協(xié)同過(guò)濾的推薦系統(tǒng)相關(guān)算法研究.pdf
- 基于用戶協(xié)同過(guò)濾推薦算法的研究.pdf
- 基于協(xié)同過(guò)濾技術(shù)的推薦算法研究.pdf
- 基于雙邊匹配的協(xié)同過(guò)濾推薦算法.pdf
- 基于協(xié)同過(guò)濾的圖書(shū)推薦算法研究.pdf
- 推薦系統(tǒng)中基于內(nèi)存的協(xié)同過(guò)濾算法研究.pdf
- 基于協(xié)同過(guò)濾技術(shù)的推薦算法研究
- 推薦系統(tǒng)中協(xié)同過(guò)濾算法研究.pdf
- 基于用戶行為協(xié)同過(guò)濾推薦算法.pdf
- 基于SVD的協(xié)同過(guò)濾推薦算法研究.pdf
- 基于協(xié)同過(guò)濾的器件推薦算法研究.pdf
- 協(xié)同過(guò)濾推薦算法研究.pdf
- 基于協(xié)同過(guò)濾的圖書(shū)推薦算法研究
- 推薦系統(tǒng)中協(xié)同過(guò)濾算法的研究.pdf
- 推薦系統(tǒng)中的協(xié)同過(guò)濾算法研究.pdf
- 基于MapReduce的協(xié)同過(guò)濾推薦算法研究.pdf
- 基于協(xié)同過(guò)濾的視頻推薦系統(tǒng).pdf
評(píng)論
0/150
提交評(píng)論