基于隨機(jī)森林和boosting思想的推薦算法的研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩54頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、推薦算法的最終目標(biāo)是通過一定的方式將用戶和商品聯(lián)系起來,讓消費(fèi)者和生產(chǎn)者從“信息超載”中找到自己真正的需求和目標(biāo)客戶,從而大大提高信息的有效使用率。個(gè)性化推薦研究和技術(shù)核心在于它的推薦能力,例如如何使用恰當(dāng)?shù)耐扑]算法提升推薦信息的準(zhǔn)確率,提高與用戶感興趣信息的吻合度,提高用戶對(duì)算法的信任度和驚喜度,算法的高效性等。為了突破這些瓶頸,研究人員不斷尋求更新的和更高效的推薦算法。
  本文的研究主要面對(duì)的是在電子商務(wù)大數(shù)據(jù)情況下,用戶商

2、品矩陣將增長(zhǎng)到不可想象的地步,同時(shí)在大數(shù)據(jù)面前,用戶和物品之間的顯性反饋關(guān)聯(lián)信息缺少,隱形反饋數(shù)據(jù)巨大的特點(diǎn)。在如何應(yīng)對(duì)大量“稀疏數(shù)據(jù)”的推薦和如何選定核心算法使計(jì)算機(jī)運(yùn)行效率最大化,基于現(xiàn)有的個(gè)性化推薦算法的基礎(chǔ)上,找到一種方法既能滿足用戶需求又能使效率準(zhǔn)確率更高的推薦算法?;谝陨夏繕?biāo),我們將算法融合作為我們研究推薦系統(tǒng)的重點(diǎn)關(guān)注目標(biāo),提出一種基于隨機(jī)森林和boosting的算法融合思想,用該思想重新構(gòu)建推薦。
  在特征集模

3、型構(gòu)建中,我們將以前需要耗費(fèi)大量精力的特征選取工作抽取為特征構(gòu)建,研究人員只要關(guān)注特征的挖掘,而不用做特征選取相關(guān)的工作,大大減少了特征選取等方面的工作量。我們首先從用戶,物品和用戶物品三個(gè)方面構(gòu)建特征序列,同時(shí)在構(gòu)造模型特征時(shí)候采用社會(huì)學(xué)中時(shí)間遺忘規(guī)律,將時(shí)間上下文信息作為特征構(gòu)造的重要依據(jù),不斷通過實(shí)驗(yàn)在平滑的計(jì)算時(shí)間影響因子。在特征集構(gòu)造中,采用hadoop下的mapreduce進(jìn)行編程,解決億級(jí)數(shù)據(jù)的計(jì)算問題。
  通過研

4、究決策樹模型,對(duì)單決策樹模型的處理數(shù)據(jù)規(guī)模較小的缺陷下,分析研究隨機(jī)森林等樹模型組合算法,采用boosting的提升思想,對(duì)數(shù)據(jù)錯(cuò)誤殘差作為建樹依據(jù),對(duì)上述模型得到的特征集通過隨機(jī)森林和boost ing算法分別進(jìn)行計(jì)算預(yù)測(cè),但是在隨機(jī)森林對(duì)關(guān)聯(lián)度較高的二級(jí)特征上結(jié)果不可信的情況下,將隨機(jī)森林算法的關(guān)注度在關(guān)聯(lián)度較小的一級(jí)特征上,同時(shí)通過時(shí)間上的不斷平滑移動(dòng),得到不同的結(jié)果集,結(jié)合boosting tree處理關(guān)聯(lián)度較高的特征集合,得到

5、時(shí)間平滑下幾組結(jié)果集合后通過線性回歸模型對(duì)預(yù)測(cè)到結(jié)果進(jìn)行線性融合,得到最終的推薦結(jié)果。經(jīng)試驗(yàn),該模型在大數(shù)據(jù)環(huán)境下不僅在計(jì)算可行性上得以實(shí)現(xiàn),而且在算法準(zhǔn)確率上也有提高。在本地?cái)?shù)據(jù)集實(shí)驗(yàn)中,采用阿里巴巴4月到7月的小規(guī)模數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),最終將算法在阿里巴巴大數(shù)據(jù)競(jìng)賽上進(jìn)行了實(shí)驗(yàn)分析,并取得了不錯(cuò)了算法結(jié)果。本論文的主要工作有以下幾個(gè)方面:
  (1)對(duì)現(xiàn)有的推薦系統(tǒng)理論進(jìn)行了研究,對(duì)現(xiàn)有的基于鄰域的推薦算法,基于圖的推薦算法和隱語

6、意模型三種類型的推薦系統(tǒng)進(jìn)行了系統(tǒng)的研究,分別根據(jù)不同的算法實(shí)現(xiàn)原理分析各種算法的優(yōu)缺點(diǎn)。但是在電子商務(wù)大數(shù)據(jù)場(chǎng)景下,用戶商品矩陣過大,數(shù)據(jù)維度過高,顯性反饋與隱形反饋不平衡,在上述算法對(duì)其分析計(jì)算過于復(fù)雜的情況下,使用機(jī)器學(xué)習(xí)的理論來重構(gòu)推薦,將機(jī)器學(xué)習(xí)應(yīng)用在大規(guī)模數(shù)據(jù)推薦進(jìn)行了實(shí)現(xiàn);
  (2)推薦系統(tǒng)領(lǐng)域的重要研究熱點(diǎn)是算法融合和大規(guī)模分布。本文針對(duì)于電子商務(wù)平臺(tái)的大規(guī)模數(shù)據(jù)下,對(duì)數(shù)據(jù)建模的過程中,將數(shù)據(jù)處理采用并行化的思想

7、,對(duì)不同的數(shù)據(jù)采用hadoop的mapreduce編程對(duì)數(shù)據(jù)的聚集,抽樣和特征構(gòu)造進(jìn)行處理,得到模型特征集,hadoop計(jì)算接口由天貓ODPS平臺(tái)提供,并采用mapreduce保證了本文算法的實(shí)現(xiàn);
  (3)抽離了特征提取,特征提取一直是推薦系統(tǒng)相當(dāng)繁瑣的工作,本文通過研究樹模型算法的優(yōu)點(diǎn),將推薦問題轉(zhuǎn)化為用戶行為特征研究,大大減少了特征提取帶來的繁瑣工作。過深入的挖掘用戶的操作行為。從用戶,產(chǎn)品和交互特征來進(jìn)行特征集的構(gòu)造,然

8、后結(jié)合協(xié)同過濾和圖論算法,將協(xié)同過濾和圖論的結(jié)果當(dāng)做一組特征集來對(duì)待,實(shí)現(xiàn)算法融合。通過研究時(shí)間遺忘規(guī)律,得到人類行為習(xí)慣由遺忘規(guī)律影響,然后進(jìn)行時(shí)間分布
  (4)算法融合,從決策樹開始到樹模型的融合過程,然后實(shí)現(xiàn)隨機(jī)森林算法,從而見識(shí)了算法融合的強(qiáng)大之處。在研究決策樹模型的基礎(chǔ)上,對(duì)隨機(jī)森林和基于boosting的回歸樹模型進(jìn)行深入的研究。在隨機(jī)森林對(duì)關(guān)聯(lián)特征集訓(xùn)練結(jié)果不可信的缺陷下,提出基于隨機(jī)森林和boosting思想的算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論