基于潛在語義分析的專利文獻(xiàn)分析與搜索技術(shù)的研究.pdf_第1頁
已閱讀1頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、專利文獻(xiàn)包含重要的研究成果,內(nèi)容廣泛新穎,技術(shù)細(xì)節(jié)描述詳細(xì),是世界上最新技術(shù)信息的重要來源。專利文獻(xiàn)的有效分析對提高企業(yè)市場競爭力至關(guān)重要。
   本文在分析國內(nèi)外現(xiàn)有專利分析技術(shù)的基礎(chǔ)上,研究如何使用文本挖掘技術(shù)對中文專利文獻(xiàn)進(jìn)行分析,采用潛在語義分析和SOM網(wǎng)絡(luò)相結(jié)合的方法對專利進(jìn)行聚類,并開發(fā)相應(yīng)的專利搜索軟件平臺。
   目前還沒有公開的中文專利文本語料庫,本文介紹了從專利網(wǎng)站上自動下載專利文獻(xiàn)全文的程序設(shè)計流程

2、,并通過文本預(yù)處理建立語料庫。專利文獻(xiàn)晦澀難懂,其中還參雜了不少專業(yè)詞匯術(shù)語,由于專利文獻(xiàn)的特殊性,傳統(tǒng)的中文分詞技術(shù)作用于專利文獻(xiàn)結(jié)果一般,因此本文設(shè)計了新的算法對專利新詞進(jìn)行識別,完善補充分詞結(jié)果。
   文本聚類有助于專利分析人員更好地分析專利文獻(xiàn),傳統(tǒng)的聚類方法只能應(yīng)用維數(shù)較低的對象,面對維數(shù)高達(dá)上千維的專利文本,聚類方法無法獲得良好的結(jié)果。文本采用了潛在語義分析的方法對專利文本進(jìn)行降維,可以達(dá)到在維數(shù)降低的同時也保證了

3、原本的語義空間結(jié)構(gòu)的效果。最后對專利文本使用SOM網(wǎng)絡(luò)進(jìn)行聚類,實驗結(jié)果表明降維后的文本在聚類時間上的開銷小于未降維的文本,并且聚類結(jié)果良好。
   常規(guī)的專利檢索只能針對專利摘要進(jìn)行關(guān)鍵字檢索而無法對專利全文進(jìn)行檢索,摘要字?jǐn)?shù)有限并不能完全代替全文的內(nèi)容。本文基于Lucene開發(fā)了專利全文檢索系統(tǒng),采用倒排索引結(jié)構(gòu)對專利全文進(jìn)行索引,加快了檢索速度。根據(jù)檢索詞查詢相關(guān)專利,系統(tǒng)能夠按照查詢內(nèi)容與檢索結(jié)果文檔的相關(guān)度對結(jié)果進(jìn)行排

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論