專利本體中術(shù)語(yǔ)及術(shù)語(yǔ)間關(guān)系抽取研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩52頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、專利作為知識(shí)產(chǎn)權(quán)的核心要素,正成為各個(gè)國(guó)家和公司爭(zhēng)相掌握的重要資源。企業(yè)的技術(shù)人員需要從專利管理系統(tǒng)中得到大量有價(jià)值的技術(shù)信息。對(duì)專利的實(shí)時(shí)檢索、科學(xué)分析和研究已成為企業(yè)加強(qiáng)創(chuàng)新能力和競(jìng)爭(zhēng)能力的必備條件。企業(yè)在開發(fā)新產(chǎn)品,技術(shù)難題攻關(guān)、技術(shù)貿(mào)易、技術(shù)引進(jìn)之前,進(jìn)行專業(yè)的專利檢索具有非常重要的意義,隨著專利知識(shí)信息爆炸性的增長(zhǎng),通過(guò)網(wǎng)絡(luò)對(duì)專利信息搜索已成為人們獲取專利信息的一種重要手段和一種新的趨勢(shì)。
  專利術(shù)語(yǔ)作為專利本體中的基

2、本元素,其質(zhì)量好壞直接影響著后續(xù)研究和應(yīng)用。術(shù)語(yǔ)間關(guān)系主要分為上下位關(guān)系和等同關(guān)系,其中上下位關(guān)系是整個(gè)本體的層次骨架,等同關(guān)系則是術(shù)語(yǔ)在某個(gè)層次的枝干擴(kuò)充,上述任務(wù)緊密合作密不可分。故本文從新能源電動(dòng)汽車專利文本內(nèi)的術(shù)語(yǔ)自動(dòng)抽取、術(shù)語(yǔ)間上下位關(guān)系抽取、術(shù)語(yǔ)間等同關(guān)系抽取三個(gè)方面展開研究,主要具體研究工作如下:
  (1)把專利術(shù)語(yǔ)分為單字詞術(shù)語(yǔ)和多字詞術(shù)語(yǔ),分析其不同分布特征,由于長(zhǎng)術(shù)語(yǔ)更能體現(xiàn)領(lǐng)域特性,本文重點(diǎn)分析長(zhǎng)術(shù)語(yǔ)的構(gòu)成

3、特點(diǎn),提出了一種自動(dòng)生成過(guò)濾詞典并結(jié)合詞匯密集度等影響因子的術(shù)語(yǔ)抽取方法。根據(jù)詞性規(guī)則模板對(duì)文獻(xiàn)匹配得到候選長(zhǎng)術(shù)語(yǔ)集合。然后利用文檔一致度生成的過(guò)濾詞典過(guò)濾部分候選長(zhǎng)術(shù)語(yǔ)集,最后將詞匯密集度、文檔差比、文檔一致度三個(gè)術(shù)語(yǔ)因子加權(quán)平均作為整個(gè)長(zhǎng)術(shù)語(yǔ)的術(shù)語(yǔ)權(quán)重值,并按值高低排序。在8000篇專利摘要文獻(xiàn)的基準(zhǔn)語(yǔ)料上進(jìn)行了實(shí)驗(yàn),隨機(jī)選取了五組實(shí)驗(yàn)數(shù)據(jù),平均準(zhǔn)確率達(dá)到91%。結(jié)果表明該方法在術(shù)語(yǔ)抽取方面是行之有效的。
  (2)專利術(shù)語(yǔ)間

4、等同關(guān)系的挖掘極大地豐富了專利本體知識(shí)庫(kù),擴(kuò)充了術(shù)語(yǔ)的概念外延。同義詞對(duì)的自動(dòng)抽取在信息檢索、本體擴(kuò)建等眾多領(lǐng)域都發(fā)揮著巨大的作用。本文借助維基百科的詞條釋義信息,提出一種詞素和語(yǔ)義結(jié)合的同義關(guān)系抽取方法。從維基百科的詞條釋義信息提取特征關(guān)系模板,利用該關(guān)系模板識(shí)別語(yǔ)素同義詞對(duì),對(duì)字串進(jìn)行編輯距離計(jì)算,得到字面相似度較高的候選同義詞對(duì),最后用上下文向量相似度方法實(shí)現(xiàn)同義詞對(duì)的自動(dòng)識(shí)別。該方法在新能源汽車專利摘要文獻(xiàn)上進(jìn)行了實(shí)驗(yàn),總共獲取

5、到623個(gè)同義詞對(duì),準(zhǔn)確率達(dá)到68%,驗(yàn)證了方法的有效性。
  (3)上下位關(guān)系最終決定了本體的層級(jí)結(jié)構(gòu)。提出一種基于包含原則和向量機(jī)器學(xué)習(xí)結(jié)合的上下位關(guān)系識(shí)別方法。該方法從專利術(shù)語(yǔ)的構(gòu)成特點(diǎn)出發(fā),在專利術(shù)語(yǔ)庫(kù)上,將長(zhǎng)度最短的術(shù)語(yǔ)集作為候選種子,用包含原則迭代抽取上下位關(guān)系實(shí)例。對(duì)字面無(wú)明顯規(guī)律的術(shù)語(yǔ)集,借助LTP句法分析工具,探索句子內(nèi)部結(jié)構(gòu),提取有效特征集,用支持向量機(jī)的機(jī)器學(xué)習(xí)方法訓(xùn)練并預(yù)測(cè)關(guān)系類別。實(shí)驗(yàn)表明,該方法的F值最

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論