科學(xué)論文的引用內(nèi)容分析及其應(yīng)用.pdf_第1頁
已閱讀1頁,還剩133頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、引文分析包括了引文著錄信息分析和引文內(nèi)容分析兩部分。與引文著錄信息分析相比,引文內(nèi)容分析研究較少,且多集中在施引文獻(xiàn)主題內(nèi)容研究中,較少深入到文獻(xiàn)全文內(nèi)容層面。參考文獻(xiàn)在文章中的引用內(nèi)容能夠為我們提供更多的引用相關(guān)信息,對了解參考文獻(xiàn)對于施引文獻(xiàn)的作用和價值,挖掘論文作者引用該文獻(xiàn)的意圖與觀點傾向性具有更直接的作用。隨著電子信息技術(shù)的發(fā)展以及大型數(shù)據(jù)庫的不斷拓展和完善,特別是全文數(shù)據(jù)庫的建設(shè),為實現(xiàn)引用內(nèi)容的多角度、系統(tǒng)性分析提供了可能

2、性。本文主要研究工作體現(xiàn)在以下五個方面:
 ?、畔到y(tǒng)地構(gòu)建了引用內(nèi)容分析的基本理論框架。以科學(xué)計量學(xué)、文獻(xiàn)計量學(xué)、內(nèi)容分析理論為指導(dǎo),提出引用內(nèi)容分析的概念、步驟及主要研究內(nèi)容,指出引用內(nèi)容研究范圍應(yīng)包括引用的主體、時間、位置、動機(jī),以及引用傾向性和強度研究。探討了引用內(nèi)容分析與傳統(tǒng)基于著錄信息的引文分析的區(qū)別與聯(lián)系,其共性是它們都是對引文展開的分析,傳統(tǒng)引文分析方法也適用于引用內(nèi)容分析,其區(qū)別在于引用內(nèi)容分析還需要借助自然語言處

3、理技術(shù)來實現(xiàn),能夠更深入、細(xì)致地揭示施引文獻(xiàn)與參考文獻(xiàn)之間繼承和創(chuàng)新的關(guān)系。剖析了引用內(nèi)容分析的功能,揭示出它在科技論文評價、揭示知識結(jié)構(gòu)演化和信息檢索三個方面的應(yīng)用價值。
 ?、茝臄?shù)據(jù)和方法兩個角度提出引用內(nèi)容分析的實現(xiàn)條件。數(shù)據(jù)條件包括數(shù)據(jù)的可獲得性、可識別性、結(jié)構(gòu)性、整體性和連續(xù)性。實現(xiàn)方法包括引用內(nèi)容抽取方法、數(shù)據(jù)庫的應(yīng)用和引用內(nèi)容的分析方法。本文以PubMed Central數(shù)據(jù)庫中所有全文數(shù)據(jù)為數(shù)據(jù)來源,實現(xiàn)了引用內(nèi)容

4、的獲取與數(shù)據(jù)庫存儲,并以此數(shù)據(jù)庫為基礎(chǔ),搭建引用內(nèi)容檢索系統(tǒng),為引用內(nèi)容的檢索與應(yīng)用提供一個數(shù)據(jù)平臺。
 ?、菑囊冒l(fā)生的位置、共被引發(fā)生的位置、共被引層次網(wǎng)絡(luò)三個角度展開引用位置分析。首先,采用引文分析與自然語言處理技術(shù)相結(jié)合,對引用發(fā)生位置進(jìn)行分析,發(fā)現(xiàn)了引文在文章各個章節(jié)中的分布規(guī)律以及在各個章節(jié)中的內(nèi)容特點。其次,根據(jù)共被引發(fā)生的位置,將共被引關(guān)系劃分為四個層次,分別是句子層次、段落層次、章節(jié)層次和文章層次,通過對不同共被

5、引層次上的共被引關(guān)系統(tǒng)計發(fā)現(xiàn),在不同期刊中共被引分布規(guī)律基本相同,在句子層次發(fā)生的共被引關(guān)系最少,文章層次共被引分布最多,4個層次共被引分布的平均比例分布為3.16%、7.29%、18.16%和71.39%。研究結(jié)果還發(fā)現(xiàn),共被引關(guān)系的位置分布與共被引頻次有一定關(guān)聯(lián),共被引頻次越高,句子層次上的共被引關(guān)系越多,文章層次共被引比例越小。最后,分析不同共被引位置上的共被引關(guān)系所構(gòu)成的共被引層次網(wǎng)絡(luò)特征,以CiteSpace軟件為基礎(chǔ),結(jié)合社

6、會網(wǎng)絡(luò)分析方法,識別出各個共被引層次網(wǎng)絡(luò)在傳統(tǒng)共被引網(wǎng)絡(luò)中的結(jié)構(gòu)特征。研究結(jié)果發(fā)現(xiàn),文章層次共被引網(wǎng)絡(luò)可以覆蓋38.58%的傳統(tǒng)共被引網(wǎng)絡(luò),而句子層次共被引網(wǎng)絡(luò)只覆蓋了5.64%,但其覆蓋位置均為傳統(tǒng)共被引網(wǎng)絡(luò)的核心位置,并且構(gòu)成傳統(tǒng)共被引網(wǎng)絡(luò)的子網(wǎng)絡(luò),其覆蓋范圍要高于段落層次共被引網(wǎng)絡(luò)和章節(jié)層次共被引網(wǎng)絡(luò)。
 ?、仍谝脙?nèi)容分析中,引入標(biāo)簽云技術(shù)和模型對引用內(nèi)容主題進(jìn)行分析,標(biāo)簽云技術(shù)可以直觀地展示出引用內(nèi)容的詞組,而模型可以對

7、引用內(nèi)容主題進(jìn)行詳細(xì)劃分。利用LDA模型,對比分析引用內(nèi)容與引文自身和施引文獻(xiàn)的差別,發(fā)現(xiàn)引用內(nèi)容主題比引文自身主題涉及范圍更廣,同時與施引文獻(xiàn)主題也有較大差別,說明引用內(nèi)容在引文知識演化過程中,具有其特有的屬性和價值。根據(jù)信息熵理論,比較引用內(nèi)容中詞組與施引文獻(xiàn)中詞組的概念廣義-狹義性,發(fā)現(xiàn)引用內(nèi)容中的詞組含義要比施引文獻(xiàn)中的詞組含義狹窄,更傾向于表述某一領(lǐng)域中專有的方法或理論。
 ?、梢砸脙?nèi)容分析理論和方法為基礎(chǔ),揭示引用內(nèi)

8、容在信息檢索、共被引分析和論文評價中的應(yīng)用價值。首先,以PubMed Central中所有全文數(shù)據(jù)為基礎(chǔ),搭建基于引用內(nèi)容的引文檢索與推薦系統(tǒng),系統(tǒng)測評結(jié)果顯示,此系統(tǒng)對領(lǐng)域內(nèi)的高被引文獻(xiàn)和經(jīng)典文獻(xiàn)具有很好的檢索與推薦效果,并且其平均檢索準(zhǔn)確率為56.5%,比GoogleScholar高12.5%,比PubMed高43.5%。其次,根據(jù)引用內(nèi)容相似性對四個層次的共被引關(guān)系賦予不同權(quán)重,結(jié)果顯示,四個共被引層次的引用內(nèi)容平均相似性分別為1

9、、0.77、0.64、0.56,文章層次共被引關(guān)系的引用內(nèi)容相似性要明顯高于人們主觀對此層次的權(quán)重賦值,賦予權(quán)重后的共被引分析效果要比傳統(tǒng)的共被引分析效果好。最后,根據(jù)引文的引用內(nèi)容,辨別引文的引用動機(jī),提出引用性質(zhì)評價指標(biāo),將引用性質(zhì)劃分為正面引用、負(fù)面引用和中性引用,采用線索詞的方法對引用內(nèi)容的引用性質(zhì)進(jìn)行自動分類,并采用統(tǒng)計檢驗方法驗證此分類方法的準(zhǔn)確性在95%以上,對BMC_Bioinformatics期刊中引用內(nèi)容的引用性質(zhì)劃

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論