版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著社會(huì)網(wǎng)絡(luò)、移動(dòng)應(yīng)用及在線服務(wù)等信息技術(shù)的廣泛應(yīng)用和不斷發(fā)展,數(shù)據(jù)呈爆炸式增長(zhǎng),海量數(shù)據(jù)的分析需要強(qiáng)大的計(jì)算能力。相似性連接作為數(shù)據(jù)分析的一個(gè)基本操作,在相似搜索、數(shù)據(jù)挖掘上它可被用來(lái)大幅度地提高計(jì)算速度,提升計(jì)算效率。相似性連接類似于數(shù)據(jù)庫(kù)連接,不同點(diǎn)在于,相似性連接是針對(duì)不同的數(shù)據(jù)類型,采用相應(yīng)的度量函數(shù)以及閾值限定,通過(guò)函數(shù)度量后再做相應(yīng)的連接操作。
單臺(tái)計(jì)算機(jī)的處理能力以及傳統(tǒng)的技術(shù)架構(gòu)已經(jīng)很難滿足海量數(shù)據(jù)處理的計(jì)算
2、要求,但是MapReduce軟件框架的出現(xiàn)為海量數(shù)據(jù)下的相似性連接帶來(lái)了曙光。目前,MapReduce下相似性連接技術(shù)已經(jīng)取得了較好的研究成果,但仍存在一些問(wèn)題:處理速度仍不夠快、處理數(shù)據(jù)類型較單一、不能有效處理動(dòng)態(tài)數(shù)據(jù)等等。針對(duì)數(shù)據(jù)處理速度的問(wèn)題,本文提出了改進(jìn)的基于劃分的算法和改進(jìn)的基于前綴過(guò)濾的算法,可以提高相似性連接的計(jì)算效率。以下是本文的主要研究?jī)?nèi)容:
1、采用分而治之的策略,借鑒 QuickJoin算法,本文提出了
3、改進(jìn)的基于劃分的算法(MRSJ_PDS算法),將海量數(shù)據(jù)分解為若干個(gè)規(guī)模較小的數(shù)據(jù)集,并分散至 MapReduce分布式集群上,再進(jìn)行相應(yīng)的相似性連接操作。主要內(nèi)容有:(1)進(jìn)行數(shù)據(jù)的劃分操作之前,對(duì)原始數(shù)據(jù)集進(jìn)行采樣,采用聚類算法計(jì)算出有效的聚類中心(亦即中樞),再根據(jù)有效中樞將原始數(shù)據(jù)集劃分并形成分區(qū)(其大小未超過(guò)單個(gè)節(jié)點(diǎn)上能計(jì)算的塊大?。?。同時(shí),為了有效并充分利用計(jì)算過(guò)程中產(chǎn)生的數(shù)據(jù),避免對(duì)數(shù)據(jù)進(jìn)行多次重復(fù)計(jì)算。本文采用索引技術(shù)存
4、儲(chǔ)中間數(shù)據(jù),即為滿足條件的分區(qū)建立 K-D樹(shù)索引,進(jìn)而獲取所有相似對(duì)。實(shí)驗(yàn)證明,該方法能夠有效減少數(shù)據(jù)的劃分次數(shù),并有效地降低了相似對(duì)驗(yàn)證的頻率,與之前的算法進(jìn)行比較該算法的運(yùn)行效率有明顯的提升。(2)在現(xiàn)實(shí)世界中廣泛存在著動(dòng)態(tài)數(shù)據(jù),可以將部分?jǐn)?shù)據(jù)作為原數(shù)據(jù)集上新增數(shù)據(jù),針對(duì)新增數(shù)據(jù)的相似性操作,本文設(shè)定了相應(yīng)的分配原則,每個(gè)新增數(shù)據(jù)會(huì)進(jìn)入到對(duì)應(yīng)的分區(qū),最終獲取新增數(shù)據(jù)的相似對(duì)。
2、在偵查近重復(fù)網(wǎng)頁(yè)、屏蔽惡意廣告、推薦相似用
5、戶等應(yīng)用中,集合相似性連接技術(shù)被廣泛使用。通常,集合相似性連接技術(shù)采用過(guò)濾-驗(yàn)證這樣的計(jì)算框架,利用前綴過(guò)濾剪枝技術(shù)縮短候選集列表,但是在 MapReduce平臺(tái)下,這樣的算法會(huì)產(chǎn)生大量的候選集,增加相似對(duì)的驗(yàn)證時(shí)間。本文提出了改進(jìn)的基于前綴過(guò)濾的MapReduce相似性連接算法(MR_MinPrefix算法),利用最小前綴過(guò)濾技術(shù)對(duì) token索引列表進(jìn)行更好的剪枝操作,降低候選集生成的代價(jià),并保存記錄的相關(guān)信息到指定文件中,便于后續(xù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- MapReduce下相似性連接算法改進(jìn)的研究.pdf
- 面向復(fù)雜距離度量的MapReduce相似性連接技術(shù)研究.pdf
- 基于實(shí)體的相似性連接操作的研究.pdf
- 基于EMD的數(shù)據(jù)流相似性連接的研究.pdf
- 基于拓?fù)湎嗨菩耘c語(yǔ)義相似性的疾病基因預(yù)測(cè)研究.pdf
- 相似性學(xué)習(xí)及基于相似性的數(shù)據(jù)低維表示.pdf
- 基于相似性的漢語(yǔ)隱喻映射研究.pdf
- 基于相似性的鏈接預(yù)測(cè)方法研究.pdf
- 基于相似性連接的大數(shù)據(jù)集成系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 面向軌跡數(shù)據(jù)的函數(shù)連接及相似性查詢算法研究.pdf
- 基于相似理論的環(huán)形桁架天線振動(dòng)相似性研究.pdf
- 基于哈希函數(shù)的相似性檢索研究.pdf
- 基于運(yùn)動(dòng)特征的軌跡相似性度量研究.pdf
- 基于Hausdorff距離的相似性度量方法研究.pdf
- 異質(zhì)網(wǎng)絡(luò)上的自相似性連接算法研究與實(shí)現(xiàn).pdf
- 基于相似性的鏈接預(yù)測(cè)算法研究.pdf
- 基于LSH的Web數(shù)據(jù)相似性查詢研究.pdf
- 基于本體映射的概念相似性算法研究.pdf
- 基于相似性測(cè)量的圖像配準(zhǔn)研究.pdf
- 基于數(shù)據(jù)相似性的特征選擇算法研究.pdf
評(píng)論
0/150
提交評(píng)論