2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩5頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、到稿日期:20100710返修日期:20100810陶金火(1985-)男研究生,職稱主要研究方向?yàn)檎Z義知識發(fā)現(xiàn)等,Email:taojinhuo@;陳華鈞男副教授主要研究方向?yàn)榫W(wǎng)格計(jì)算語義web等;胡雪琴(1978-)女助理研究員主要研究方向?yàn)橹嗅t(yī)藥信息學(xué)等中醫(yī)藥文獻(xiàn)語義關(guān)系圖發(fā)現(xiàn)陶金火1陳華鈞2胡雪琴3(浙江大學(xué)計(jì)算機(jī)學(xué)院浙江310027)1(浙江大學(xué)計(jì)算機(jī)學(xué)院浙江310027)2(中國中醫(yī)藥科學(xué)院北京100700)3摘要本文提出一

2、種基于中醫(yī)藥語義本體知識庫對中醫(yī)藥文獻(xiàn)的進(jìn)行語義關(guān)系圖發(fā)現(xiàn)的方法。核心方法分為三個(gè)部分:第一步采用中醫(yī)藥語義本體概念名稱為字典進(jìn)行關(guān)鍵詞提?。坏诙讲捎藐P(guān)聯(lián)算法的一種變異算法查找高頻關(guān)鍵詞組;第三步利用中醫(yī)藥語義本體知識庫對關(guān)鍵詞組進(jìn)行語義關(guān)系識別,對未能識別的關(guān)鍵詞進(jìn)行語義關(guān)系預(yù)測。最后每組關(guān)鍵詞生成一個(gè)對應(yīng)的語義關(guān)系圖。本文實(shí)驗(yàn)部分將利用中醫(yī)藥語義本體知識庫對中醫(yī)藥文獻(xiàn)進(jìn)行語義關(guān)系圖的發(fā)現(xiàn),驗(yàn)證本文提出的算法。關(guān)鍵詞關(guān)鍵詞中醫(yī)藥語義

3、本體,語義關(guān)系圖中圖法分類號中圖法分類號TP39文獻(xiàn)標(biāo)識碼文獻(xiàn)標(biāo)識碼ASemanticGraphDiscoveryofTCMDocumentsTAOJinhuo1CHENHuajun2HUXueqin3(DepartmentofComputerScienceZhejiangUniversityZhejiang310027China)1(DepartmentofComputerScienceZhejiangUniversity,Zheji

4、ang310027China)2(InstituteofInfmationonTraditionalChineseMedicineChinaAcademyofChineseMedicalSciencesBeijing100700China)3AbstractAbstractThispaperproposesanontologybasedTCMsemanticgraphdiscoveryofTCMDocument.Thecemethodi

5、ncludesthreeprocedures:FirstlyextractkeywdsfromtheTCMdocumentsusingtheTCMontologyconceptnameasdictionary.Secondlycalculatethefrequencyofthekeywds.ThirdlyidentifythesemanticrelationbetweenthekeywdswiththeTCMontologyknowle

6、dgebase.Furthermepredictthesemanticrelationthatcan’tbeidentified.Therefeeverygroupofkeywdscouldgenerateasemanticgraphthatexpressthepossiblesemanticoftheiginalsentence.IntheexperimentsectiontheTCMontologyknowledgebasewasu

7、sedtoidentifythesemanticgraphfromTCMDocumentsverifythefeasibilityofthemethodofthispaper.KeywdsKeywdsTCMOntology,SemanticGraph1引言歷史悠久的中醫(yī)藥領(lǐng)域擁有大量的包含寶貴知識的文獻(xiàn),對中醫(yī)藥文獻(xiàn)的自動化的分析處理一直是學(xué)界的研究熱點(diǎn)。不過受限于中醫(yī)藥文獻(xiàn)一些特點(diǎn),比如中醫(yī)藥學(xué)的概念表達(dá)、術(shù)語使用甚至語句內(nèi)容都具有特

8、殊領(lǐng)域性,計(jì)算機(jī)對這些文獻(xiàn)的分析處理一直不太理想。語義web技術(shù)作為下一代互聯(lián)網(wǎng)技術(shù),將人類的所有知識進(jìn)行無縫鏈接將人類的所有知識進(jìn)行無縫鏈接集成,為中醫(yī)藥文獻(xiàn)的分析處理提供了新的解決方案集成,為中醫(yī)藥文獻(xiàn)的分析處理提供了新的解決方案。語義web中的語義圖是一種能夠清楚表達(dá)本體之間的復(fù)雜關(guān)系的模型語義圖的節(jié)點(diǎn)是本體節(jié)點(diǎn)之間的邊采用節(jié)點(diǎn)之間的邊采用RDFRDF的三元組來表述三元組來表述。語義圖為中醫(yī)藥知識提供了一種良好的表述模型,能夠清晰

9、的表達(dá)中醫(yī)藥概念之間的各種關(guān)系。因此,本文提出一種利用中醫(yī)藥語義本體知識庫,從大量中醫(yī)藥文獻(xiàn)中,進(jìn)行語義關(guān)系圖發(fā)現(xiàn)的方法。在實(shí)驗(yàn)部分本文用中醫(yī)藥本體知識庫對中醫(yī)藥文獻(xiàn)進(jìn)行語義關(guān)系圖發(fā)現(xiàn),以驗(yàn)證算法。2相關(guān)工作相關(guān)工作1998年,TBernersLee與JHendler等首次提出了語義Web的概念[1][2]。語義web的主要目標(biāo)是在web中增加機(jī)器可以理解的語義,提升機(jī)器對web內(nèi)容的理解,從而更好的支持搜索內(nèi)容,知識發(fā)現(xiàn),內(nèi)容推薦等服

10、務(wù)。語義語義webweb通過語義關(guān)系圖,來表示現(xiàn)實(shí)世界的所有事通過語義關(guān)系圖,來表示現(xiàn)實(shí)世界的所有事物之間的語義關(guān)系,從而構(gòu)成一個(gè)巨大的知識和資源網(wǎng)物之間的語義關(guān)系,從而構(gòu)成一個(gè)巨大的知識和資源網(wǎng)絡(luò),對應(yīng)用領(lǐng)域提供相關(guān)的服務(wù)絡(luò),對應(yīng)用領(lǐng)域提供相關(guān)的服務(wù)。語義web的核心概念是語義本體(semanticontology),本體可以涵蓋任何概念模型。將語義web技術(shù)應(yīng)用到中醫(yī)藥知識建模是一項(xiàng)非常有意義的工作。作為語義web的基礎(chǔ),語義圖(s

11、emanticgraph)以語義本體為節(jié)點(diǎn),以RDF三元組的形式描述節(jié)點(diǎn)之間語義關(guān)系,也即圖的邊。語義圖可以表達(dá)任意復(fù)雜的語義結(jié)構(gòu),各個(gè)元素及各元素之間的語義關(guān)系。語義圖是一種先進(jìn)的知識表達(dá)模型,具有直觀性,全面具有直觀性,全面性,性,可推理性等特點(diǎn)推理性等特點(diǎn)。另外,語義圖通常用RDF或者OWL來表述,計(jì)算機(jī)能夠很好的識別,便于自動化分析處理。將語義圖。將語義圖應(yīng)用于中醫(yī)藥領(lǐng)域,進(jìn)行知識的表達(dá)和建模是一項(xiàng)很有前景的工作,可以讓中醫(yī)藥知

12、識達(dá)到規(guī)范化,有利于人們對中醫(yī)藥知識的獲取,存儲和分享,同時(shí)增強(qiáng)自動化處理的能力。本文將重心放在從中醫(yī)藥文獻(xiàn)中進(jìn)行語義關(guān)系圖的發(fā)現(xiàn),因?yàn)檎Z義關(guān)系圖能夠很好的描述句子所表達(dá)的主要內(nèi)容。比如:主語謂語賓語,主語和賓語用語義圖的節(jié)點(diǎn)來表示,而謂語則用頂點(diǎn)之間的有向邊來表示。文獻(xiàn)由句子組成,整篇文章的內(nèi)容可以用語義圖來表達(dá)(不一定可以連通,可能形成的是多個(gè)子圖)。如果將各個(gè)節(jié)點(diǎn)歸并到其所屬的直接父節(jié)點(diǎn)或者更上層的節(jié)點(diǎn),那么我們可以得到精簡的概括

13、性的圖,這個(gè)圖概括性的描述了文獻(xiàn)的內(nèi)容,可以用于對文獻(xiàn)的分類;另外對語義圖進(jìn)行節(jié)點(diǎn)頻度分析,知識推理等,可以得到文獻(xiàn)的主題詞。總之,將文獻(xiàn)轉(zhuǎn)化為語義關(guān)系圖,對文獻(xiàn)的分析處關(guān)鍵詞提取的具體步驟入圖2所示:文獻(xiàn)關(guān)鍵詞識別分句中醫(yī)藥本體關(guān)鍵詞向量圖2分詞算法的流程圖第一步將數(shù)據(jù)源文獻(xiàn)以句子為單位進(jìn)行分解。第二步以中醫(yī)藥本體概念為字典,對每個(gè)句子進(jìn)行中醫(yī)藥關(guān)鍵詞的提取。關(guān)鍵詞提取的結(jié)果以向量進(jìn)行存儲。公式2表示數(shù)據(jù)源進(jìn)行關(guān)鍵詞提取后的結(jié)果,集合

14、K是關(guān)鍵詞向量V的集合。K=V1,V2,…,Vn(2)集合K中包含了所有從數(shù)據(jù)源中提取出來的關(guān)鍵詞,后續(xù)算法將在其中尋找潛在有價(jià)值的語義關(guān)系圖。此處所說的有價(jià)值的語義關(guān)系圖的價(jià)值是指文獻(xiàn)中描述的語義關(guān)系,反應(yīng)了文獻(xiàn)語義的語義圖才發(fā)揮了文獻(xiàn)的價(jià)值。3.2高頻詞的計(jì)算高頻詞的計(jì)算關(guān)鍵詞提取完成后,將進(jìn)行高頻關(guān)鍵詞組的發(fā)現(xiàn)。多次一起出現(xiàn)的詞組,其內(nèi)部存在一定的有價(jià)值的語義關(guān)系的可能性較大,這是顯而易見的。這也是關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的思想之一,

15、本文高頻詞計(jì)算方法也借鑒了關(guān)聯(lián)規(guī)則算法。出現(xiàn)次數(shù)越多的關(guān)鍵詞組,其越有可能存在有價(jià)值的語義關(guān)系(有價(jià)值是指文獻(xiàn)中論述的語義關(guān)系)。據(jù)此對各種數(shù)量的關(guān)鍵詞組進(jìn)行出現(xiàn)次數(shù)的統(tǒng)計(jì)。關(guān)鍵詞組的出現(xiàn)次數(shù)的閾值設(shè)為E,當(dāng)出現(xiàn)次數(shù)達(dá)到E次,那么該關(guān)鍵詞組即為高頻關(guān)鍵詞組。這個(gè)E也就是關(guān)聯(lián)規(guī)則查找算法中的支持度。這里不存在一些詞語比如副詞,連詞,介詞等多次出現(xiàn)的干擾問題,因?yàn)榉衷~程序分詞后得到關(guān)鍵詞都是中醫(yī)藥范疇的詞語。高頻關(guān)鍵詞組內(nèi)的關(guān)鍵詞需要保持在

16、關(guān)鍵詞向量中的順序,不過可以在關(guān)鍵詞向量中隔開m個(gè)詞出現(xiàn)。關(guān)鍵詞之間的位置關(guān)系隱含著詞語之間是否存在有價(jià)值語義關(guān)系的依據(jù),如果兩個(gè)詞的位置相近,那么兩者間存在有價(jià)值的語義關(guān)系的可能性就較大;反之,如果兩個(gè)詞的位置相距較遠(yuǎn),那么其兩者之間存在有價(jià)值的語義關(guān)系的可能性就較小。關(guān)鍵詞不要求連續(xù)出現(xiàn),可以相隔k個(gè)詞出現(xiàn)。因?yàn)橄嗤Z義的關(guān)鍵詞組,可能會以不同的形式呈現(xiàn),比如:“大黃,瀉火,涼血”和“大黃,瀉火,大黃,涼血”雖然是同一種語義,形成相

17、同的語義圖,但是其關(guān)鍵詞的數(shù)量是不同的,如果在計(jì)算關(guān)鍵詞出現(xiàn)的閾值的時(shí)候,關(guān)鍵詞可以隔開1個(gè)詞的話,那么“大黃,瀉火,涼血”就可以算出現(xiàn)了兩次。在一定間隔范圍內(nèi),關(guān)鍵詞對前后位置關(guān)系不敏感,也就是說,和有等價(jià)的語義作用。比如“大黃治療咽腫”和“咽腫被大黃治療”在現(xiàn)實(shí)世界中的意義是相同的,而且在預(yù)測算法將會對兩種位置關(guān)系的關(guān)鍵詞都進(jìn)行語義關(guān)系識別。在一個(gè)完備的知識庫中,對這兩種關(guān)系都會進(jìn)行描述,這樣的話,無論還是都可以在知識庫中獲得識別。

18、如果知識庫中對這樣的語義關(guān)系只描述一種,那么在語義識別算法中,對關(guān)鍵詞進(jìn)行正向和反向的識別,即在識別的同時(shí),也對進(jìn)行識別。如果兩個(gè)關(guān)鍵詞的間隔比較遠(yuǎn),本文認(rèn)為其兩者之間不存在有價(jià)值的語義關(guān)系,因此要在一定范圍內(nèi)討論關(guān)鍵詞前后位置關(guān)系。下面將對高頻關(guān)鍵詞計(jì)算進(jìn)行詳細(xì)的描述。對于關(guān)鍵詞向量集K的Vi,設(shè)有n個(gè)關(guān)鍵詞,分別計(jì)算Vi的各種數(shù)量的關(guān)鍵詞組在K中的出現(xiàn)次數(shù),如果達(dá)到閾值E,則對應(yīng)的關(guān)鍵詞組屬于高頻關(guān)鍵詞組。對兩個(gè)以上的關(guān)鍵詞進(jìn)行出現(xiàn)

19、次數(shù)的計(jì)算,從最大的關(guān)鍵詞數(shù)量開始計(jì)算,比如Vi有n個(gè)關(guān)鍵詞,那么從n個(gè)關(guān)鍵詞開始計(jì)算,如果n個(gè)關(guān)鍵詞屬于高頻關(guān)鍵詞,那么小于n數(shù)量的關(guān)鍵詞就不必再進(jìn)行統(tǒng)計(jì),因?yàn)樗麄兌紝儆诟哳l詞。高頻關(guān)鍵詞組中的詞,不必前后相鄰,可以相隔m個(gè)關(guān)鍵詞出現(xiàn)。定義高頻關(guān)鍵詞集合FK,對關(guān)鍵詞向量集合K中的每個(gè)向量Vi進(jìn)行如下步驟的計(jì)算:Step1:定義變量n,n為向量Vi中的關(guān)鍵詞個(gè)數(shù)。Step2:在向量Vi中,對每組數(shù)量n的關(guān)鍵詞組,不要求連續(xù)可以相隔k個(gè)

20、詞,首先判斷集合FK中是否存在該關(guān)鍵詞組。如果存在,或者包含該關(guān)鍵詞組的關(guān)鍵詞組存在,則不必再進(jìn)行計(jì)算。如果不存在,則進(jìn)行計(jì)算,在其他關(guān)鍵詞向量中尋找該關(guān)鍵詞組,如果該關(guān)鍵詞組出現(xiàn)數(shù)量達(dá)到閾值E,則將該關(guān)鍵詞組加入集合FK中。Step3:將n減1。如果n不小于2則轉(zhuǎn)到step2;否則算法完成,集合FK中的便是發(fā)現(xiàn)的高頻關(guān)鍵詞組。3.3語義關(guān)系圖識別和預(yù)測語義關(guān)系圖識別和預(yù)測接下來是算法最核心的一個(gè)步驟,對高頻關(guān)鍵詞組進(jìn)行的語義關(guān)系圖的識

21、別,包括識別和預(yù)測語義關(guān)系兩個(gè)步驟,最終將語義關(guān)系連成一個(gè)語義關(guān)系圖。3.3.1語義本體知識庫語義本體知識庫中,本體包含了名稱,定義等屬性,描述了本體的基本信息。而三元組的描述了本體a和本體b之間的語義關(guān)系。在此基礎(chǔ)上整個(gè)知識庫中的知識相互關(guān)聯(lián),整個(gè)知識庫的知識形成一個(gè)語義網(wǎng)絡(luò)。對于關(guān)鍵詞之間的語義關(guān)系,如果已經(jīng)在知識庫中存在描述,通過在知識庫中查找可以確定該關(guān)系;如果在知識庫中還沒有描述,那么可以通過知識庫中已有的相關(guān)的語義關(guān)系,對該

22、語義關(guān)系類型進(jìn)行預(yù)測。3.3.2語義關(guān)系識別如果兩個(gè)關(guān)鍵詞之間關(guān)系在知識庫中已經(jīng)存在描述,那么其語義關(guān)系可以通過查找直接確定。比如在知識庫中存在的語義關(guān)系,則對于關(guān)鍵詞“大黃”和“清熱”,可以直接確定大黃與清熱之間是功效的語義關(guān)系,即大黃有清熱的功效,因此大黃和清熱之間的語義關(guān)系就此識別。在中醫(yī)藥本體知識庫中,有一種語義關(guān)系是“正名關(guān)系”,即概念的正規(guī)名稱,相對于正名的是異名,正名和異名是相同事物的不同名稱。比如:大黃是正名,其異名包括

23、黃良,火參錦紋等。在中醫(yī)藥中,存在著很多的正名異名現(xiàn)象[10],正名在語義本體知識庫中有更全面的語義關(guān)系的描述。將屬于異名的中醫(yī)藥概念詞轉(zhuǎn)換為正名,然后再進(jìn)行語義關(guān)系的識別,將提高語義關(guān)系識別的成功率。在中醫(yī)藥本體知識庫中,還存在一種“上位詞”的語義關(guān)系,即概念之間的上下級的關(guān)系,或者說是父子關(guān)系。在此知識庫中,父概念之間所擁有的關(guān)系,子概念是可以繼承的。比如大黃屬于陰性要去,對癥候上火具有治療的語義關(guān)系。概念的上位詞的上位詞之間可能也

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論