

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、當(dāng)今隨著信息技術(shù)的日新月異,快速發(fā)展,人們對(duì)信息的渴望也是與日俱增。面對(duì)雜亂的海量數(shù)據(jù),如何能從中快速得到用戶想要的信息,是當(dāng)前亟待解決的問(wèn)題。所以對(duì)海量數(shù)據(jù)進(jìn)行有效的分類及搜索就成為了研究的熱點(diǎn)。隨著科學(xué)技術(shù)的不斷發(fā)展,近年來(lái)已經(jīng)產(chǎn)生了一種新的計(jì)算模式:云計(jì)算。云計(jì)算因其具有超大規(guī)模,可虛擬化,良好的通用性,高擴(kuò)展性,相對(duì)廉價(jià)等特性,越來(lái)越多的數(shù)據(jù)及應(yīng)用服務(wù)都開始運(yùn)用這個(gè)平臺(tái)。
對(duì)云計(jì)算系統(tǒng)內(nèi)的數(shù)據(jù)可以利用平臺(tái)本身的優(yōu)勢(shì),令
2、其相較于傳統(tǒng)的數(shù)據(jù)管理模式在各個(gè)方面都有很大程度上的提高。所以人們把搜索技術(shù)也逐漸轉(zhuǎn)移到分布式的新型平臺(tái)上進(jìn)行構(gòu)建,逐漸取代以往較為集中的方式。
本文的主要研究工作:
?。?)首先,針對(duì)目前雜亂網(wǎng)頁(yè)信息不能準(zhǔn)確快速找到與搜索主題盡量相關(guān)數(shù)據(jù)的問(wèn)題,本文依托于改進(jìn)的網(wǎng)頁(yè)排序算法(即基于經(jīng)典的PageRank算法的優(yōu)化),以期望能夠獲得與搜索主題較為相近的數(shù)據(jù)信息。
?。?)接著,對(duì)于得到的大量網(wǎng)頁(yè)信息,通過(guò)預(yù)處理
3、轉(zhuǎn)化為較為簡(jiǎn)單的文本格式。針對(duì)目前數(shù)據(jù)分類存儲(chǔ)中未考慮數(shù)據(jù)冷熱直接統(tǒng)一存儲(chǔ)的情況,本文中構(gòu)建一個(gè)數(shù)據(jù)冷熱預(yù)判模型將這些數(shù)據(jù)分為冷熱兩大類分開存儲(chǔ)。在冷熱分類的基礎(chǔ)上再進(jìn)行基于主題類別的分類,以便于之后對(duì)這些數(shù)據(jù)進(jìn)行索引的構(gòu)建。
?。?)為了完成基于主題類別分類,針對(duì)TF-IDF算法在某個(gè)特定應(yīng)用場(chǎng)景下不具備很好的主題關(guān)鍵詞提取功能,本文通過(guò)改進(jìn)的TF-IDF關(guān)鍵詞提取算法進(jìn)行主題關(guān)鍵詞的提取。特別的,實(shí)際生活中常出現(xiàn)一些臨時(shí)突發(fā)
4、的信息,但這些信息往往不能簡(jiǎn)單的通過(guò)改進(jìn)TF-IDF主題關(guān)鍵詞提取算法進(jìn)行提取。針對(duì)該算法考慮不充分的情況,本文提出了一種適用于臨時(shí)突發(fā)信息數(shù)據(jù)的主題關(guān)鍵詞提取算法。
(4)最后,為了進(jìn)一步提高搜索性能,針對(duì)以往數(shù)據(jù)量非常大傳統(tǒng)索引構(gòu)建相對(duì)耗時(shí)的情況,本文在原有索引技術(shù)上進(jìn)行分布式的改進(jìn),通過(guò)Hadoop平臺(tái)實(shí)現(xiàn)索引的并行化。利用節(jié)點(diǎn)分配存儲(chǔ)的原理先將數(shù)據(jù)根據(jù)不同的冷熱類別進(jìn)行分開存儲(chǔ),然后基于冷熱分區(qū)存儲(chǔ)再將兩分區(qū)內(nèi)具有類似
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 云環(huán)境下多關(guān)鍵詞密文搜索技術(shù)的研究.pdf
- 云環(huán)境下關(guān)鍵詞排序搜索的隱私保護(hù)研究.pdf
- 云環(huán)境中關(guān)鍵詞可搜索加密算法研究.pdf
- 基于主題模型的關(guān)鍵詞抽取算法研究.pdf
- 基于關(guān)鍵詞的語(yǔ)義搜索.pdf
- 云計(jì)算中模糊關(guān)鍵詞可搜索加密方案研究.pdf
- 基于關(guān)鍵詞的RDF數(shù)據(jù)圖查詢模型研究.pdf
- 基于關(guān)系數(shù)據(jù)庫(kù)的關(guān)鍵詞搜索系統(tǒng)的研究.pdf
- 基于Web挖掘的搜索關(guān)鍵詞建議研究.pdf
- 基于云計(jì)算的數(shù)據(jù)庫(kù)關(guān)鍵詞查詢技術(shù)研究.pdf
- 醫(yī)療關(guān)鍵詞分類
- 云環(huán)境中密文數(shù)據(jù)的模糊多關(guān)鍵詞檢索方案研究.pdf
- 基于主題的關(guān)鍵詞提取方法對(duì)比研究
- 關(guān)鍵詞分析的模式關(guān)鍵詞選擇,關(guān)鍵詞搜索頻度,關(guān)鍵詞調(diào)配5-v.org
- 支持關(guān)鍵詞搜索的內(nèi)積加密研究.pdf
- 加密云數(shù)據(jù)的自適應(yīng)多關(guān)鍵詞排序搜索.pdf
- 基于對(duì)等網(wǎng)絡(luò)的多關(guān)鍵詞搜索技術(shù).pdf
- 基于用戶反饋的關(guān)系數(shù)據(jù)庫(kù)關(guān)鍵詞搜索技術(shù)研究.pdf
- 關(guān)系數(shù)據(jù)庫(kù)中關(guān)鍵詞搜索算法的研究.pdf
- 搜索競(jìng)價(jià)廣告關(guān)鍵詞優(yōu)化問(wèn)題研究.pdf
評(píng)論
0/150
提交評(píng)論