非負(fù)矩陣分解及在社區(qū)檢測(cè)和搜索結(jié)果聚類(lèi)中的應(yīng)用.pdf_第1頁(yè)
已閱讀1頁(yè),還剩60頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、一方面,隨著互聯(lián)網(wǎng)上數(shù)據(jù)和信息的迅速增長(zhǎng),人們被淹沒(méi)在數(shù)據(jù)的海洋里。如何從這些海量的數(shù)據(jù)中獲取人們想要的信息,成為當(dāng)今數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)面臨的主要任務(wù)。由于大數(shù)據(jù)的4V特征(Volume、Variety、Value、Velocity),使得如何對(duì)這些海量的數(shù)據(jù)進(jìn)行降維處理成為人們關(guān)心的主要問(wèn)題之一。非負(fù)矩陣分解由于其能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的維度和結(jié)構(gòu)、具有較好的可解釋性、可以直接對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)分析等優(yōu)點(diǎn),受到了人們的廣泛關(guān)注。另一方面,現(xiàn)實(shí)世界

2、的諸多系統(tǒng)都可以表示為復(fù)雜網(wǎng)絡(luò)的形式,而從復(fù)雜網(wǎng)絡(luò)中發(fā)現(xiàn)連接緊密的社區(qū)結(jié)構(gòu)(即對(duì)節(jié)點(diǎn)進(jìn)行聚類(lèi)分析)具有重要的意義。近年來(lái),復(fù)雜網(wǎng)絡(luò)社區(qū)檢測(cè)引起了人們極大的興趣,隨著復(fù)雜網(wǎng)絡(luò)社區(qū)檢測(cè)方法研究的深入,涌現(xiàn)出許多基于非負(fù)矩陣分解方法的社區(qū)發(fā)現(xiàn)模型,并取得了一些鼓舞人心的結(jié)果。
  但基于非負(fù)矩陣分解的社區(qū)發(fā)現(xiàn)模型仍然存在以下問(wèn)題:
  (1)非負(fù)矩陣分解模型本身對(duì)初值敏感,面對(duì)網(wǎng)絡(luò)社區(qū)檢測(cè)問(wèn)題需要考慮網(wǎng)絡(luò)自身結(jié)構(gòu)特性設(shè)計(jì)有效的初值

3、選擇策略。(2)現(xiàn)有的用于網(wǎng)絡(luò)社區(qū)檢測(cè)的非負(fù)矩陣分解模型的有效性還有待進(jìn)一步提高,已有模型沒(méi)有考慮對(duì)分解出的基向量進(jìn)行正交約束,以增強(qiáng)分解結(jié)果的稀疏性。(3)現(xiàn)有的基于網(wǎng)絡(luò)社區(qū)檢測(cè)的非負(fù)矩陣分解方法沒(méi)有考慮節(jié)點(diǎn)自身的特性,如當(dāng)網(wǎng)絡(luò)表示視頻之間的共觀看關(guān)系時(shí),節(jié)點(diǎn)上的屬性即是視頻的標(biāo)題短文本,需要研究基于非負(fù)矩陣分解的社會(huì)媒體短文本聚類(lèi)及網(wǎng)絡(luò)和節(jié)點(diǎn)屬性相結(jié)合的非負(fù)矩陣分解方法。
  針對(duì)以上問(wèn)題,本論文的貢獻(xiàn)如下:
  (1)

4、提出了一種新的矩陣分解初始化方法(CALS),該方法使用Pagerank方法對(duì)原始矩陣進(jìn)行排序,考慮節(jié)點(diǎn)的重要性和節(jié)點(diǎn)間的距離雙重因素選取k(社區(qū)個(gè)數(shù))個(gè)初始值對(duì)基矩陣進(jìn)行初始化。然后,使用最小二乘方法求解出隸屬度矩陣。在人工和真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:CALS不僅可以提高算法的穩(wěn)定性,而且提高了非負(fù)矩陣分解方法用于社區(qū)檢測(cè)的精度。
  (2)提出了一種基于正交約束的非負(fù)矩陣分解模型(ALSOC),正交約束的引入實(shí)現(xiàn)了分解的低秩

5、性、稀疏性?;谧钚《说姆椒ǖ牡蠼夥椒ㄔ谡鎸?shí)數(shù)據(jù)集和人工合成數(shù)據(jù)集上的都表現(xiàn)出較好的性能。相關(guān)實(shí)驗(yàn)結(jié)果證明了:ALSOC方法不僅可以保證結(jié)果的稀疏性,還可以提高算法的準(zhǔn)確性。
  (3)本文初步嘗試了非負(fù)矩陣分解方法在短文本聚類(lèi)上的效果,并將非負(fù)矩陣分解方法用于優(yōu)酷UGC(User Generated Content)數(shù)據(jù)的搜索結(jié)果聚類(lèi)。在優(yōu)酷內(nèi)部搭建一個(gè)視頻主題分析原型系統(tǒng),以便對(duì)搜索結(jié)果進(jìn)行二次整理,提高搜索結(jié)果的多樣性

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論