版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、姓名消歧指的是消除多文檔中的人名歧義性,把相同的人名按照現(xiàn)實世界的不同實體進行區(qū)分。姓名歧義是導致搜索引擎以及文獻數(shù)據(jù)庫中人物檢索效果較差的原因,用戶需要花費大量時間從重名人物中篩選出自己感興趣的人物信息。同時姓名消歧也是構建合著者社會網(wǎng)絡、研究者學術評價等科研活動的基礎性工作,在數(shù)據(jù)挖掘、自然語言處理等領域具有廣泛的應用。本文通過對國內(nèi)外姓名消歧的研究現(xiàn)狀進行歸納和總結,分析了各方法在實際應用中的優(yōu)缺點,針對信息大爆炸的數(shù)字化時代,許
2、多方法耗時多、不支持增量消歧以及面臨“多維度災難”的問題,提出了基于語義指紋的姓名消歧方法。
首先,設計了基于語義指紋的文獻著者姓名消歧實施方案。該方案首先利用SimHash生成文本語義指紋,構建指紋庫。將全文相似度計算轉化為語義指紋的比較,整個過程不涉及原文本的兩兩比較,且語義指紋具有處理速度快、占用空間小,是一種有效的降維算法。不僅如此,對于新增的文獻本文采用動態(tài)建立作者指紋庫的方法,而傳統(tǒng)的方法只關注了對庫中已有的文獻姓
3、名消歧。第二,有效地融合作者的合著者特征、機構特征和全文的語義指紋特征設計了綜合特征比較器,進而進行同一作者的文獻識別。第三,根據(jù)綜合特征的比較結果設置合理的閾值進行認領決策、作品指派,考慮到一篇論文可能被多名作者認領,并添加了爭議仲裁。
然后,客觀選取了有代表性的部分作者的文獻數(shù)據(jù),構建實驗數(shù)據(jù)集,首先對合著者單特征、作者單位單特征和語義指紋單特征進行獨立特征姓名消歧能力判斷和參數(shù)確定實驗,為改進綜合特征姓名消歧效果具有很強
4、的指導意義;根據(jù)獨立特征消歧能力的強弱以及各個單特征的優(yōu)勢,設計綜合特征姓名消歧策略并進行實驗驗證。
最后,選取準確率、召回率和F值對獨立特征姓名消歧和綜合特征姓名消歧實驗結果進行評價。實驗結果表明合著者單特征和機構單特征具有較高的準確率和較低的召回率,而相對而言語義指紋單特征具有較高的召回率和較低的準確率,所以本研究采用基于語義指紋的綜合特征姓名消歧方法,實現(xiàn)了優(yōu)勢互補,彌補了各自方法的不足,獲得了較高的準確率和召回率,結果
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于語義概念的詞義消歧方法.pdf
- 基于語義的中文詞義消歧技術研究.pdf
- 基于語義的漢語詞義消歧方法研究.pdf
- 命名實體語義消歧方法的研究.pdf
- 基于唯一性特征的中文論文作者姓名消歧實證研究.pdf
- 基于語義向量的無導詞義消歧.pdf
- 基于句法樹的中文詞義消歧方法研究.pdf
- 基于語義范疇擴展的詞義消歧的研究.pdf
- 基于語義類詞法信息的詞義消歧.pdf
- 基于語義類詞法信息的詞義消歧
- 29621.科技文獻作者消歧方法研究
- 基于中文維基百科的命名實體消歧方法研究.pdf
- 基于條件隨機場的中文分詞消歧研究.pdf
- 基于知網(wǎng)語義相關度的漢語短語結構歧義消歧方法的研究.pdf
- 中文人名消歧算法研究.pdf
- 基于隱馬爾可夫模型的中文詞義消歧方法研究.pdf
- 基于語義的中文文本特征降維方法研究.pdf
- 基于統(tǒng)計的中文詞義消歧技術研究.pdf
- 基于圖方法的命名實體消歧研究.pdf
- 我國專利數(shù)據(jù)中發(fā)明家姓名消歧算法研究.pdf
評論
0/150
提交評論