版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨著互聯(lián)網(wǎng)的深入發(fā)展,人類生產(chǎn)的數(shù)據(jù)飛速增長,這使得互聯(lián)網(wǎng)成為大數(shù)據(jù)的主要來源。其中一類重要的數(shù)據(jù)就是實(shí)體,不同于一般意義上的數(shù)據(jù),實(shí)體往往是多種屬性數(shù)據(jù)構(gòu)成的一個(gè)整體,每種屬性數(shù)據(jù)都刻畫了實(shí)體的某一個(gè)方面,例如某一個(gè)商品,它包含著商品的各種參數(shù)、描述性信息,同時(shí)還有用戶對(duì)于該商品的評(píng)價(jià)信息。對(duì)于這些數(shù)量巨大的實(shí)體進(jìn)行整理和組織具有重要的意義。然而,傳統(tǒng)的聚類和標(biāo)簽抽取往往集中在單一視圖的數(shù)據(jù)上,對(duì)于實(shí)體這種特殊的數(shù)據(jù),普遍的做法是將實(shí)
2、體包含的這些不同類型的數(shù)據(jù)簡單的合并成一個(gè)統(tǒng)一的表示,之后再使用傳統(tǒng)的方法進(jìn)行處理。這種做法存在一些問題:一是忽略了不同類型數(shù)據(jù)之間的本質(zhì)區(qū)別以及重要性的差別,從而不能充分利用它們包含的信息;二是沒有考慮到不同視圖之間的交互作用,單獨(dú)的考慮一種視圖并不能完整的描述整個(gè)實(shí)體。針對(duì)以上分析,本文進(jìn)行了利用多視圖的方法對(duì)實(shí)體進(jìn)行聚類以及標(biāo)簽抽取的研究,主要工作包括:
第一,本文結(jié)合co-training的思想將傳統(tǒng)的K-均值聚類算法
3、擴(kuò)展到了多視圖情形,并對(duì)實(shí)體進(jìn)行聚類。首先分析了幾個(gè)經(jīng)典用于處理多視圖數(shù)據(jù)的聚類算法,指出了這些方法存在的問題。在此基礎(chǔ)上本文提出一個(gè)新的聚類目標(biāo)函數(shù),并且得到了一個(gè)新的多視圖K-均值聚類算法。在若干個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集以及一個(gè)實(shí)體數(shù)據(jù)集上的結(jié)果表明,本文提出的聚類算法在各類評(píng)價(jià)指標(biāo)上均得到了顯著的提升。
第二,本文將多視圖的概念引入到實(shí)體的標(biāo)簽抽取研究中。我們分析了若干單一文本標(biāo)簽抽取方法,并指出了它們存在的問題,區(qū)別于單一文本的抽
4、取方式,我們從實(shí)體的具有不同屬性的文本中分別抽取候選標(biāo)簽,然后結(jié)合各個(gè)視圖的重要程度進(jìn)行排序。我們的結(jié)果表明,加入多視圖的信息的基于TFIDF以及主題模型的標(biāo)簽抽取方法同未考慮多視圖信息的方法相比,抽取效果得到了較大的提升。
第三,本文針對(duì)手機(jī)App實(shí)體建立了一個(gè)基于聚類和標(biāo)簽的檢索系統(tǒng)。利用我們提出的多視圖聚類算法對(duì)手機(jī)App進(jìn)行聚類,系統(tǒng)能夠?qū)z索結(jié)果進(jìn)行高效、合理的組織和整理,系統(tǒng)同時(shí)可以生成手機(jī) App聚簇標(biāo)簽,結(jié)合這
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 文本檢索結(jié)果聚類及類別標(biāo)簽抽取技術(shù)研究.pdf
- 檢索結(jié)果聚類中的類別標(biāo)簽抽取技術(shù)研究.pdf
- 多視圖重疊聚類研究.pdf
- 領(lǐng)域?qū)嶓w屬性及事件抽取技術(shù)研究.pdf
- 情感標(biāo)簽抽取相關(guān)技術(shù)研究.pdf
- 鞋印圖像多標(biāo)簽聚類算法研究.pdf
- 實(shí)體關(guān)系抽取關(guān)鍵技術(shù)研究.pdf
- 基于文本的實(shí)體—關(guān)系抽取技術(shù)研究.pdf
- 面向?qū)嶓w發(fā)現(xiàn)的網(wǎng)絡(luò)信息聚類技術(shù)研究與實(shí)現(xiàn).pdf
- 基于聚類的多文檔文摘技術(shù)研究.pdf
- 中文開放式實(shí)體關(guān)系抽取技術(shù)研究.pdf
- 基于標(biāo)簽樹的列表頁面數(shù)據(jù)抽取技術(shù)研究.pdf
- 高維數(shù)據(jù)的多視圖聚類方法研究.pdf
- 基于多核學(xué)習(xí)的多視圖增量聚類模型研究.pdf
- 基于非負(fù)矩陣分解的多視圖聚類研究.pdf
- 基于多視角社區(qū)發(fā)現(xiàn)的實(shí)體聚類算法.pdf
- 基于引用聚類的多文檔自動(dòng)文摘技術(shù)研究.pdf
- 專利文本聚類及關(guān)鍵短語抽取的研究.pdf
- 多信息融合中文關(guān)系抽取技術(shù)研究.pdf
- 基于核函數(shù)的命名實(shí)體關(guān)系抽取技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論