大數據互聯(lián)網大規(guī)模數據挖掘_第1頁
已閱讀1頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Mining of Massive Datasets,大數據:互聯(lián)網大規(guī)模數據挖掘與分布式處理,,,聚類,7,,Part,Clustering,聚類是對點集進行考察并按照某種距離測度將它們聚成多個“簇”的過程。聚類的目標是同一簇內的點之間的距離較短,而不同簇中點之間的距離較大。如圖,不同種類的犬在某種程度上形成一種簇。三種不同犬類的身高體重分布圖,可以知道這些犬可以分到三個簇中,每個簇恰好對應一種犬類。,而聚類分析則是根據最大化簇內的相

2、似性、最小化簇間的相似性的原則將數據對象聚類或分組,所形成的每個簇可以看作一個數據對象類,用顯式或隱式的方法描述它們。,,,,,,,,,,,,,,,,,,最大化簇內的相似性,最小化簇間的相似性,01,02,03,04,05,06,,能夠適用于大數據量(可伸縮性),能夠處理不同類型數據(距離定義),能夠發(fā)現(xiàn)任意形狀的簇(結果特點),能夠處理高維數據,具有處理噪聲的能力,聚類結果可解易使用,,,Web廣告,8,,Part,Advert

3、ising on the Web,目前,許多WEB應用通過廣告而維持生計,從在線廣告中獲益最多的是搜索應用,而搜索廣告的有效性主要源于將搜索查詢和廣告進行匹配的一個稱為Adwords模型。 本章將主要關注廣告匹配的優(yōu)化算法。這里使用的算法屬于一種特殊的類型,他們屬于一種特殊的類型,它們屬于貪心算法且從特定技術角度來說是在線算法,重點討論在線廣告的相關問題、在線算法、Adwords實現(xiàn)和問題等。,二部圖,最大匹配,完美匹配,最大匹

4、配的貪心算法,貪心匹配算法的競爭率為1/2,01,02,03,04,05,,,推薦系統(tǒng),9,,Part,Recommendation Systems,,舉例1,在淘寶上多次瀏覽某類商品時,淘寶網站會出現(xiàn)該類產品的推薦,諸如:您可能感興趣…。舉例2,某些門戶網站會基于您的瀏覽足跡,推薦您感興趣的新聞內容。沒錯,這就是推薦系統(tǒng)的巨大魅力,大數據環(huán)境之下,Web應用可以對涉及用戶喜好進行預測,而這種系統(tǒng)稱為推薦系統(tǒng)。,不知道大家有沒有

5、這樣的經驗,反正我是經常碰到。,這類系統(tǒng)通過計算用戶或/和項之間的相似度來推薦項。與某用戶相似的用戶所喜歡的項會推薦給該用戶。,這類系統(tǒng)主要考察的是推薦項的性質。用戶計算機用戶以往的瀏覽歷史來預測用戶將來的行為,也就是基于內容的推薦。,推薦系統(tǒng),基于內容的系統(tǒng),協(xié)同過濾系統(tǒng),基于內容的推薦(Content-based Recommendation)是信息過濾技術的延續(xù)與發(fā)展,它是建立在項目的內容信息上作出推薦的,而不需要依據用戶對項目的

6、評價意見,更多地需要用機器學習的方法從關于內容的特征描述的事例中得到用戶的興趣資料。在基于內容的推薦系統(tǒng)中,項目或對象是通過相關的特征的屬性來定義,系統(tǒng)基于用戶評價對象的特征,學習用戶的興趣,考察用戶資料與待預測項目的相匹配程度。用戶的資料模型取決于所用學習方法,常用的有決策樹、神經網絡和基于向量的表示方法等?;趦热莸挠脩糍Y料是需要有用戶的歷史數據,用戶資料模型可能隨著用戶的偏好改變而發(fā)生變化。,,,不需要其它用戶的數據,沒有冷開始問

7、題和稀疏,能為具有特殊興趣愛好的用戶進行推薦,能推薦新的或不是很流行的項目,沒有新項目問題,通過流出推薦項目內容特征,解釋推薦那些項目的原因,已有比較好的技術,如關于分類學習的技術已趨成熟,,,,,,,,,優(yōu)點,缺點是要求內容能容易抽取成有意義的特征,要求特征內容有良好的結構性,并且用戶的口味必須能夠用內容特征形式來表達,不能顯式地得到其它用戶的判斷情況。,,,,分析數據,輸出結果,過濾數據,數據收集,利用分類聚類技術分析出這些

8、日志數據之間的關聯(lián)性,以及這些日志數據和用戶之間的關聯(lián)性,這也是最重要的一步。,Web日志中有很多無用的信息,我們要把這些無用的信息排除掉,而且要區(qū)分出用戶和日志數據之間的聯(lián)系。,即搜集用戶的行為資料,其中也包括很多方法,根據我找到的資料與以往的經驗來看,web日志可以作為我們的切入點,即我們的數據來源。,基于用戶的協(xié)同過濾推薦的基本原理是,根據所有用戶對物品或者信息的偏好,發(fā)現(xiàn)與當前用戶口味和偏好相似的“鄰居”用戶群,在一般的應用中是

9、采用計算“K- 鄰居”的算法;然后,基于這 K 個鄰居的歷史偏好信息,為當前用戶進行推薦。,上圖示意出基于用戶的協(xié)同過濾推薦機制的基本原理,假設用戶 A 喜歡物品 A,物品 C,用戶 B 喜歡物品 B,用戶 C 喜歡物品 A ,物品 C 和物品 D;從這些用戶的歷史喜好信息中,我們可以發(fā)現(xiàn)用戶 A 和用戶 C 的口味和偏好是比較類似的,同時用戶 C 還喜歡物品 D,那么我們可以推斷用戶 A 可能也喜歡物品 D,因此可以將物品 D 推薦給

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論