面向推薦系統(tǒng)的關(guān)鍵問(wèn)題研究及應(yīng)用.pdf_第1頁(yè)
已閱讀1頁(yè),還剩129頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著互聯(lián)網(wǎng)近年來(lái)在國(guó)內(nèi)外爆炸式的發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)、信息以前所未有的速度瘋狂增長(zhǎng)。因此怎樣從海量數(shù)據(jù)中發(fā)現(xiàn)自己希望尋找的內(nèi)容已經(jīng)成為越來(lái)越多的用戶面臨的一大難題,也成為大量專家學(xué)者研究的熱門課題。
  用戶從互聯(lián)網(wǎng)上發(fā)現(xiàn)并獲取數(shù)據(jù)信息,一般看來(lái)經(jīng)歷了三個(gè)階段:1,最初始是各類門戶網(wǎng)站的建立,如sina、sohu、yahoo等,他們幫助用戶梳理、組織各類常用的熱門的資源、信息,供用戶發(fā)現(xiàn)、瀏覽。但一方面梳理整合的信息畢竟是有限的,

2、用戶的需求不一定包含其中;另一方面隨著數(shù)據(jù)的爆炸式增長(zhǎng),太多的數(shù)據(jù)會(huì)使得門戶網(wǎng)站變得雜亂臃腫,因此這些網(wǎng)站也只能選擇相對(duì)重要的信息檢索。2,然后是搜索引擎的出現(xiàn),如google,baidu等,用戶能通過(guò)搜索引擎檢索自己希望獲取的內(nèi)容;然而檢索結(jié)果的準(zhǔn)確性極依賴于用戶對(duì)問(wèn)題的描述,同時(shí)一般用戶的描述通常是不夠準(zhǔn)確的,這會(huì)直接導(dǎo)致檢索結(jié)果出現(xiàn)偏差,用戶很難完全準(zhǔn)確的找到自己所需的結(jié)果。3,最近則是推薦系統(tǒng)的產(chǎn)生,用戶不再需要主動(dòng)搜索,而系統(tǒng)

3、會(huì)智能的通過(guò)用戶的屬性信息,用戶的歷史記錄,為用戶推薦用戶可能會(huì)需要的信息,如taobao、netflix等會(huì)智能的為用戶推薦商品、電影,這在用戶需求不夠明確時(shí),能為用戶精簡(jiǎn)信息。值得注意的是以上三個(gè)階段不是一個(gè)進(jìn)化的過(guò)程,而是一個(gè)相互補(bǔ)充,互相協(xié)作的關(guān)系。
  由于推薦系統(tǒng)能很好的解決互聯(lián)網(wǎng)“信息過(guò)載”的問(wèn)題,因此廣受用戶歡迎,也因此被越來(lái)越多的網(wǎng)站、公司使用,而與之相應(yīng)的推薦算法也越來(lái)越受到學(xué)術(shù)界的重視,成為一個(gè)重要的研究領(lǐng)域

4、。然而面對(duì)不同種類的數(shù)據(jù)與越來(lái)越復(fù)雜的應(yīng)用場(chǎng)景,推薦系統(tǒng)會(huì)面臨不同的問(wèn)題,如冷啟動(dòng)問(wèn)題和可擴(kuò)展性等常規(guī)問(wèn)題;又如應(yīng)用場(chǎng)景的區(qū)別、數(shù)據(jù)分布的不一致會(huì)使得同樣的算法在不同場(chǎng)景、數(shù)據(jù)上得到的結(jié)果相差很遠(yuǎn);同時(shí)存在的是某些推薦算法問(wèn)題的求解困難等新問(wèn)題。針對(duì)以上推薦系統(tǒng)中存在的問(wèn)題,本文深入研究推薦系統(tǒng),做了以下幾點(diǎn)研究工作:
  (1)基于非參數(shù)統(tǒng)計(jì)的相似度模型研究。
  協(xié)同過(guò)濾算法是推薦系統(tǒng)最基本也是最主流的算法,被成功的運(yùn)用

5、于大量商業(yè)模型中,取得了很好的效果。該算法主要由兩步組成,其中相似度的計(jì)算是第一步也是最為關(guān)鍵的一步。然而1,不同應(yīng)用場(chǎng)景的數(shù)據(jù)會(huì)有各自的特點(diǎn),具有明顯的差異性、分布明顯不同,使用同樣的相似度度量模型是不夠準(zhǔn)確的;2,傳統(tǒng)的歐氏距離、皮爾遜相關(guān)度、余弦相似度等都有各自的局限性,已經(jīng)不能直接應(yīng)用于越來(lái)越復(fù)雜的場(chǎng)景;3,對(duì)于稀疏的數(shù)據(jù),算出的相似度置信概率極低,直接用于推薦會(huì)降低推薦精度?;谝陨显?,本文提出了一種基于非參數(shù)統(tǒng)計(jì)的相似度模

6、型,基于非參數(shù)統(tǒng)計(jì)的思想,該模型能將不同場(chǎng)景的數(shù)據(jù)映射到統(tǒng)一的空間,去除不同數(shù)據(jù)間的差異,將其統(tǒng)一到相同的標(biāo)準(zhǔn)。同時(shí)由于投影后的空間具有良好的線性性,相似度度量能很好的使用線性相似度方式計(jì)算,解決上述幾點(diǎn)問(wèn)題,提高推薦精度。
  (2)基于時(shí)間回溯的特征預(yù)測(cè)模型研究。
  數(shù)據(jù)量的不足往往是各種機(jī)器學(xué)習(xí)模型面臨的最大問(wèn)題之一,大量的研究表明,數(shù)據(jù)對(duì)于模型結(jié)果的重要性遠(yuǎn)遠(yuǎn)大于算法對(duì)于模型的重要性。在推薦系統(tǒng)中,用戶的歷史行為是

7、最主要的模型數(shù)據(jù)來(lái)源。傳統(tǒng)的推薦系統(tǒng)可以根據(jù)用戶的歷史行為預(yù)測(cè)他們的屬性(如愛(ài)好、年齡、性別等),也可以直接通過(guò)歷史行為找到類似的用戶進(jìn)而進(jìn)行推薦。然而一直以來(lái)的研究中,對(duì)用戶歷史行為的使用都是樸素、簡(jiǎn)單的,并沒(méi)有注重歷史行為的時(shí)間維度。本文提出了一種基于時(shí)間回溯的特征預(yù)測(cè)模型,使歷史數(shù)據(jù)的利用率大大增大,從某種意義上數(shù)倍的豐富了數(shù)據(jù)量,提高預(yù)測(cè)精度。并且,本文在taobao的真實(shí)數(shù)據(jù)上使用該方法預(yù)測(cè)用戶孩子的年齡,結(jié)果表明預(yù)測(cè)精度大大

8、高于傳統(tǒng)方法。
  (3)基于演化博弈的全局優(yōu)化算法研究。
  大量的推薦算法問(wèn)題,甚至數(shù)據(jù)挖掘問(wèn)題,在模型的求解過(guò)程中,都會(huì)規(guī)約到求解全局優(yōu)化問(wèn)題。因此求解全局優(yōu)化問(wèn)題是推薦系統(tǒng)中的一個(gè)重點(diǎn)問(wèn)題,也是難點(diǎn)問(wèn)題。目前,常用的算法,如梯度下降法、隨機(jī)梯度下降法或者牛頓法,只適合求解凸函數(shù)最優(yōu)化(凸優(yōu)化)問(wèn)題。而本文提出的基于演化博弈的全局優(yōu)化算法嘗試求解連續(xù)域上的全局優(yōu)化問(wèn)題,剔除掉凸函數(shù)這一強(qiáng)限制條件。同時(shí)在求解的過(guò)程中,基

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論