版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、作為網(wǎng)絡(luò)百科全書的代表,維基百科已成為廣大用戶獲取知識(shí)的資源庫,所有維基百科條目按類別組織而成,整個(gè)維基百科類別系統(tǒng)構(gòu)成了一個(gè)具有層次結(jié)構(gòu)關(guān)系的分類體系,用戶可以根據(jù)分類索引層層搜索,任意瀏覽自己感興趣的維基百科文章內(nèi)容。所有的維基百科條目內(nèi)容由志愿者遵循一定規(guī)則編輯而成,而傳統(tǒng)的人工編輯過程,志愿者由于缺乏對(duì)整個(gè)維基百科類別系統(tǒng)的了解,容易標(biāo)注出重復(fù)或者不規(guī)范的類別,造成類別標(biāo)注的雜亂。針對(duì)人工編輯的耗時(shí)費(fèi)力,本文提出為中文維基百科自
2、動(dòng)推薦類別。
然而,維基百科的類別有其特殊性,它被稱為“開放分類”,既是能描述文章所屬類別的分類類別,又可以看成用戶即志愿者為該詞條貼上的類別標(biāo)簽,如此看來,維基百科類別推薦問題既是標(biāo)簽推薦問題又是網(wǎng)頁分類問題。另外,與傳統(tǒng)分類不同的是維基百科的類別數(shù)量很多,并且所有類別之間不是平行關(guān)系而是有上下位層次結(jié)構(gòu)的,傳統(tǒng)的分類器方法不再適用。因此本文考慮從協(xié)同過濾和深分類兩個(gè)方面為中文維基百科自動(dòng)推薦類別,所做的工作體現(xiàn)在以下兩個(gè)方
3、面:
第一、把維基百科類別推薦問題看作標(biāo)簽推薦問題,采用最常用的推薦算法,即協(xié)同過濾,為新的維基百科文章推薦類別標(biāo)注。利用中文維基百科中的四個(gè)重要語義特征即鏈入、鏈出、鏈入的類別和鏈出的類別來表示維基百科文章,得到與目標(biāo)文章相似的前若干篇文章的所有類別后,通過查詢返回的相似度值計(jì)算各個(gè)類別的權(quán)重,選擇前面的若干個(gè)類別作為推薦結(jié)果返回給目標(biāo)文章。實(shí)驗(yàn)結(jié)果表明了這四個(gè)語義特征能較好地表征一篇維基百科文章,同時(shí)也驗(yàn)證了協(xié)同過濾方法在
4、中文維基百科自動(dòng)推薦類別中的有效性。
第二、把維基百科類別推薦問題看作網(wǎng)頁分類問題,采用一種特別針對(duì)于大規(guī)模層次結(jié)構(gòu)類別的分類算法,即深分類方法,對(duì)新的目標(biāo)文章進(jìn)行分類。整個(gè)過程分為查詢模塊和分類模塊兩個(gè)步驟。將協(xié)同過濾方法得到的相關(guān)候選類別集作為查詢模塊的結(jié)果,縮小了需要進(jìn)行分類的類別數(shù)量。分類模塊將查詢模塊得到的候選類別集作為樸素貝葉斯分類器的訓(xùn)練語料,將目標(biāo)文章作為分類器的測試輸入從而得到分類結(jié)果。從維基百科中挑選了一定
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于中文維基百科的文本擴(kuò)充.pdf
- 中文網(wǎng)絡(luò)百科全書的知識(shí)傳播研究——以維基百科與互動(dòng)百科為例.pdf
- 關(guān)于維基百科中的實(shí)體類別推斷方法的研究.pdf
- 基于中文維基百科的全文語義標(biāo)注系統(tǒng).pdf
- 基于中文維基百科的信息檢索技術(shù)研究.pdf
- 基于中文維基百科的知識(shí)庫構(gòu)建.pdf
- 基于中文維基百科的語義知識(shí)挖掘相關(guān)研究.pdf
- 基于中文維基百科的概念相關(guān)詞群研究.pdf
- 基于維基百科的中文跨文本指代消解的研究.pdf
- 水楊酸維基百科
- 維基百科不自由
- 關(guān)于維基百科內(nèi)容質(zhì)量的研究.pdf
- 基于維基百科的語義比較.pdf
- 維基百科上的語義搜索.pdf
- 中文維基百科分類結(jié)構(gòu)的復(fù)雜網(wǎng)絡(luò)動(dòng)力學(xué)研究.pdf
- 基于中文維基百科的命名實(shí)體消歧方法研究.pdf
- 基于維基百科的搜索結(jié)果挖掘.pdf
- 基于維基百科的中文命名實(shí)體語料庫構(gòu)建研究.pdf
- 基于維基百科的語義相關(guān)度計(jì)算研究.pdf
- 基于維基百科的人物關(guān)系抽取研究.pdf
評(píng)論
0/150
提交評(píng)論