版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、互聯(lián)網(wǎng)包含數(shù)量巨大的文件信息,從而搜索引擎所返回的搜索結(jié)果可能包含上千或者上百萬(wàn)條的記錄。這樣就必然需要一種排序算對(duì)搜索結(jié)果進(jìn)行排序,使得人們能夠在第一時(shí)間看到最符合要求的結(jié)果。一般的搜索引擎只會(huì)采用一種排序算法來(lái)對(duì)所有情況的搜索結(jié)果進(jìn)行排序,導(dǎo)致所有的返回結(jié)果將以同樣的規(guī)則排列。這樣的排序方式可能不利于一些特殊類(lèi)型的文章,比如一些科學(xué)研究論文。雖然人們創(chuàng)造了一些專(zhuān)門(mén)的搜索引擎用來(lái)搜索、索引和排序那些特殊類(lèi)型的搜索對(duì)象,但這些搜索引擎仍
2、然使用與通用搜索引擎相類(lèi)似的排序算法。
在本論文中,將專(zhuān)門(mén)為科學(xué)研究論文構(gòu)造一種新的、容易實(shí)現(xiàn)的排序算法。Paper time ranking algorithm(PTRA)是一種新的排序算法,它根據(jù)三個(gè)因素來(lái)對(duì)結(jié)果進(jìn)行排序:發(fā)表年份、引用頻次、所屬刊物。這三個(gè)因素會(huì)對(duì)PTRA帶來(lái)不同的影響??紤]到這三個(gè)因素出自以下三個(gè)原因:首先,國(guó)際會(huì)議或期刊在業(yè)界的影響力在一定程度上表明了論文的質(zhì)量;其次,論文發(fā)表年份能決定該文章的主題是
3、否會(huì)成為熱門(mén)主題;第三,論文的引用頻次能夠說(shuō)明該文章的含金量、受關(guān)注程度以及其對(duì)相應(yīng)研究方向的影響力。鑒于科學(xué)研究者們傾向于對(duì)最新的科學(xué)文獻(xiàn)投入更多的關(guān)注,將在算法中提高發(fā)表年分的影響比例。
為了構(gòu)建和證實(shí)PTRA算法,做了一個(gè)網(wǎng)絡(luò)爬蟲(chóng),它會(huì)遍歷世界上不同的科研論文數(shù)據(jù)庫(kù)以收集PTRA所需的信息。遺憾的是,起初有些信息缺失或難以收集,比如一些學(xué)術(shù)期刊的影響力因子。為了收集這些信息,構(gòu)造了另一個(gè)網(wǎng)絡(luò)爬蟲(chóng),專(zhuān)門(mén)用來(lái)提取和計(jì)算期刊的
4、影響力因子。時(shí)至今日,網(wǎng)絡(luò)爬蟲(chóng)已經(jīng)可以收集到PTRA所需的全部數(shù)據(jù)。為了證明排序算法結(jié)果的準(zhǔn)確性以及各個(gè)參數(shù)對(duì)排序算法的影響,將PTRA與谷歌學(xué)術(shù)搜索的排序算法進(jìn)行了對(duì)比。參考谷歌學(xué)術(shù)搜索有三個(gè)原因:首先,谷歌學(xué)術(shù)上已有超過(guò)了五千萬(wàn)篇的論文。第二,谷歌的網(wǎng)絡(luò)爬蟲(chóng)比較先進(jìn),可以以較快的方式在世界范圍內(nèi)收集最新發(fā)表的作品。第三,谷歌在搜索引擎和排序算法上擁有非常豐富的經(jīng)驗(yàn)。
經(jīng)過(guò)比較可以得知,在谷歌排序算法中,論文的引用頻次對(duì)排序
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 排序算法論文
- 一種改進(jìn)的專(zhuān)題搜索結(jié)果排序算法的研究.pdf
- 一種基于動(dòng)態(tài)排序的最大頻繁項(xiàng)集挖掘算法.pdf
- 哲學(xué)一種存在的體驗(yàn)——論文
- 一種SDN環(huán)境中的網(wǎng)絡(luò)節(jié)點(diǎn)重要性排序算法.pdf
- 一種在移動(dòng)網(wǎng)絡(luò)環(huán)境下的網(wǎng)頁(yè)排序算法的研究.pdf
- 一種基于時(shí)間序列指數(shù)平滑的決策支持算法的研究.pdf
- 一種拓展的文化算法.pdf
- 一種HMM的學(xué)習(xí)算法.pdf
- 一種修正牛頓算法.pdf
- 基于jit的一種混流生產(chǎn)排序模型
- 一種改進(jìn)的CELP算法.pdf
- 畢業(yè)論文--一種基于多維混沌系統(tǒng)的圖像加密算法研究
- 關(guān)于違約時(shí)間的一種新模型.pdf
- 一種關(guān)聯(lián)規(guī)則算法研究與改進(jìn).pdf
- 一種簡(jiǎn)易調(diào)頻電路的設(shè)計(jì)與實(shí)現(xiàn)【畢業(yè)論文】
- 一種圖像壓縮算法的優(yōu)化與實(shí)現(xiàn).pdf
- 一種基于主題的并行排序?qū)W習(xí)方法研究.pdf
- 一種加權(quán)的Simpler GMRES算法.pdf
- 一種Rete算法的改進(jìn)方法.pdf
評(píng)論
0/150
提交評(píng)論