版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、收稿日期:收稿日期:20160808錄用日期:錄用日期:20161209基金項(xiàng)目:基金項(xiàng)目:福建省軟科學(xué)項(xiàng)目(2015R0083)通信作者:通信作者:qiuyihui@xmut.1doi:10.6043j.issn.04380479.201608004基于分類回歸決策樹算法的專利價(jià)值評估指標(biāo)體系基于分類回歸決策樹算法的專利價(jià)值評估指標(biāo)體系邱一卉張馳雨(廈門理工學(xué)院經(jīng)濟(jì)與管理學(xué)院,福建廈門361024)摘要:摘要:科學(xué)、準(zhǔn)確的專利價(jià)值評估
2、將有效地促進(jìn)專利的產(chǎn)業(yè)化、商業(yè)化,是提升國家、企業(yè)綜合實(shí)力的重要關(guān)鍵點(diǎn)。針對我國專利數(shù)據(jù)來源眾多、指標(biāo)關(guān)系復(fù)雜等特點(diǎn),現(xiàn)有專利價(jià)值評估過程依賴人為主觀,缺乏客觀、合理評估方法等問題,提出了一種基于分類回歸決策樹(classificationregressiontreeCART)模型的屬性選擇方法,用于構(gòu)建專利價(jià)值評估的指標(biāo)體系。實(shí)驗(yàn)結(jié)果表明相較于基于隨機(jī)森林的屬性選擇方法,該方法不僅能有效地降低指標(biāo)體系的規(guī)模,并且能提高評估建模的效率,
3、在兼顧評估模型可解釋性的基礎(chǔ)上更好地提高專利價(jià)值評估的準(zhǔn)確性。進(jìn)一步通過枚舉遍歷的方法,約減指標(biāo)集大小,構(gòu)建出規(guī)模更小的指標(biāo)體系,結(jié)合專家知識和實(shí)證研究,有效地驗(yàn)證了該指標(biāo)體系的可解釋性和現(xiàn)實(shí)意義。關(guān)鍵詞:關(guān)鍵詞:專利價(jià)值評估指標(biāo)體系;屬性選擇;決策樹算法中圖分類號:中圖分類號:TP181文獻(xiàn)標(biāo)志碼文獻(xiàn)標(biāo)志碼:A近年來,我國的專利總量快速增長。2015年,我國全年科研經(jīng)費(fèi)支出達(dá)14220億元,比上年增長9.2%,全年受理專利申請279.
4、9萬件,為171.8萬件授予專利權(quán)[1]。據(jù)世界銀行統(tǒng)計(jì),我國的科技成果轉(zhuǎn)換率為15%,其中專利轉(zhuǎn)換率為25%,專利推廣率在15%~20%左右,與龐大的專利數(shù)量相比,如此之低的轉(zhuǎn)換率使得大量優(yōu)秀專利技術(shù)處于閑置和浪費(fèi)狀態(tài),缺乏有效的專利價(jià)值評估手段就是影響專利快速轉(zhuǎn)換的一大阻礙。若能快速有效地對專利進(jìn)行評估,不僅可以節(jié)約60%的研究時(shí)間,更可以節(jié)省40%的研究經(jīng)費(fèi)[1~3]。因此,進(jìn)行有效地專利價(jià)值評估是最為關(guān)鍵的一環(huán)。專利價(jià)值評估涉及
5、諸多的指標(biāo),因此識別影響專利價(jià)值的關(guān)鍵指標(biāo)有利于我們進(jìn)行更加準(zhǔn)確和有效的專利評估。近年來國內(nèi)外學(xué)者在專利價(jià)值評估指標(biāo)體系方面研究取得了不少成果,Park[4]和Hou[5]分別提出了影響專利價(jià)值評估的主要因素,也出現(xiàn)了CHI專利價(jià)值評估指標(biāo)體系[6]和佐治亞太平洋(GegiaPacific)評估體系[7]等相關(guān)指標(biāo)體系。楊丹丹、李清海、趙蘊(yùn)華等[8~14]提出了影響專利價(jià)值評估的關(guān)鍵指標(biāo),并構(gòu)建了專利價(jià)值評估指標(biāo)體系。國家知識產(chǎn)權(quán)局于2
6、012年出版了《專利價(jià)值分析指標(biāo)體系操作手冊》[15],該體系主要包括技術(shù)價(jià)值因素、法律價(jià)值因素及經(jīng)濟(jì)價(jià)值因素3個(gè)一級指標(biāo)及一系列二級指標(biāo),為專利價(jià)值評估提供指導(dǎo)性的先驗(yàn)信息。綜上,國內(nèi)外學(xué)者對專利價(jià)值評估指標(biāo)體系研究取得了不少成果,在實(shí)際應(yīng)用鄰域仍未形成統(tǒng)一的評估模型及標(biāo)準(zhǔn)。我國專利數(shù)據(jù)庫也存在不完善、未標(biāo)準(zhǔn)化等問題使得很多國外的研究成果不適用于我國的專利價(jià)值評估,導(dǎo)致以往的專利價(jià)值評估過程中過于依賴人為評價(jià)、主觀性太強(qiáng),缺乏公正、合
7、理和易操作的評估方法。在這一背景下,利用跨領(lǐng)域的新方法對專利價(jià)值評估指標(biāo)體系進(jìn)行進(jìn)一步研究將具有重要的理論意義和實(shí)踐價(jià)值。專利價(jià)值評估數(shù)據(jù)具有來源眾多、指標(biāo)關(guān)系復(fù)雜、類別不平衡等特點(diǎn),為進(jìn)一步提高評估性能,對專利價(jià)值評估數(shù)據(jù)進(jìn)行屬性選擇、建立一個(gè)簡約的專利價(jià)值評估指標(biāo)體系十分必要。機(jī)器學(xué)習(xí)領(lǐng)域的屬性選擇分為三種模式:第一種模式是過濾器(Filter)方法,獨(dú)立的對數(shù)據(jù)屬性進(jìn)行選擇處理,與后續(xù)模型無關(guān);第二種模式是包裹式(Wrapper)
8、方法,直接把最終將使用的模型性能作為特征子集的評價(jià)準(zhǔn)則;第三種模式是嵌入式(Embedding)方法,將屬性選擇過程與模型訓(xùn)練過程融為一體。一般而言,由于包裹式屬性選擇方法直接針對模型進(jìn)行優(yōu)化,因此從最終模型性能來看,包裹式特征選擇比過濾式特征選擇更好。Fisher’sratio、Fsce[16]和之間的關(guān)系,所選取的屬性之間可能存在嚴(yán)重冗余,提高過擬合風(fēng)險(xiǎn)。而KPSVM[18](KernelPenalizedSupptVectMach
9、ine)和BoostingSVM[19](BoostingSupptVectMachine)則是嵌入式的屬性選擇方法,嵌入式的屬性選擇方法效率較高,它們在構(gòu)造分類器的同時(shí)選擇相關(guān)的屬性?;陔S機(jī)森林[20]的屬性選擇方法也是一種嵌入式屬性選擇方法,在建立隨機(jī)森林的同時(shí)可以得到變量重要性的排序列表,根據(jù)該列表進(jìn)行屬性選擇。但是這類方法依賴于特定的數(shù)據(jù)類型,在專利價(jià)值評估的數(shù)據(jù)上運(yùn)用效果不佳。針對以上屬性選擇方法在專利價(jià)值評估指標(biāo)體系應(yīng)用中
10、出現(xiàn)的問題。本文提取出一種基于CART決策樹算法的屬性選擇方法,用于構(gòu)建專利價(jià)值評估的指標(biāo)體系。實(shí)驗(yàn)結(jié)果表明相較于基于隨機(jī)森林的屬性選擇方法,該方法具有更大的優(yōu)勢,能夠有效地降低指標(biāo)體系的規(guī)模。相較于上述屬性選擇方法該方法能快速簡潔地對屬性進(jìn)行選擇,得到屬性的重要性程度排序,并可適用于多種數(shù)據(jù)類型。本文進(jìn)一步通過枚舉遍歷的方法,約減指標(biāo)集大小,構(gòu)建出規(guī)模更小的指標(biāo)體系,結(jié)合專家知識和實(shí)證研究,有效地驗(yàn)證了該指標(biāo)體系可解釋性和現(xiàn)實(shí)意義。與
11、傳統(tǒng)的成本法[21]和市場法[22]相比本文提出的專利價(jià)值評估指標(biāo)體系不受市場波動影響,更具客觀性,數(shù)據(jù)獲取也更加準(zhǔn)確、便利。1屬性選擇方法屬性選擇方法1.1CART決策樹算法決策樹算法為提高專利評估的效率,本文利用在機(jī)器學(xué)習(xí)領(lǐng)域應(yīng)用最為廣泛的CART決策樹算法進(jìn)行屬性選擇。決策樹是一種由結(jié)點(diǎn)和有向邊組成的層次結(jié)構(gòu),樹中包含三種結(jié)點(diǎn):根結(jié)點(diǎn)、內(nèi)部結(jié)點(diǎn)、終結(jié)點(diǎn)。決策樹僅有一個(gè)根結(jié)點(diǎn),是全體訓(xùn)練數(shù)據(jù)集合。樹中的每個(gè)內(nèi)部結(jié)點(diǎn)是一個(gè)分裂問題,它
12、將到達(dá)該結(jié)點(diǎn)處的樣本按某個(gè)特定屬性分塊。每個(gè)終結(jié)點(diǎn)是帶有分類標(biāo)簽的數(shù)據(jù)集合。從決策樹的根結(jié)點(diǎn)到葉結(jié)點(diǎn)的一條路徑形成一個(gè)判別規(guī)則。CART決策樹算法是Breiman[23]于1984年提出的,該算法可以處理處理高度傾斜或多態(tài)的數(shù)值型數(shù)據(jù),也可以處理順序或無序的類屬型數(shù)據(jù)[24]。CART算法使用基尼系數(shù)(GiniIndex)作為不純度的度量,CART算法選擇具有最小Gini系數(shù)值的屬性作為決策樹的分裂屬性,Gini系數(shù)值越小,表明樣本對于
13、分類問題的純凈度越高,劃分效果越好?;嵯禂?shù)的定義如公式1所示:(1)21()1CiiGiniAp????公式1表示一個(gè)節(jié)點(diǎn)A的Gini不純度,其中表示屬于類的概率,C表示測試集樣本共有Cipi類。當(dāng)時(shí)表明所有樣本屬于同類,當(dāng)所()0GiniA?有類在節(jié)點(diǎn)中以等概率出現(xiàn)時(shí),()(1)2GiniACC??最大化。在實(shí)際遞歸劃分中,如果當(dāng)前節(jié)點(diǎn)()GiniA的中的樣本數(shù)不為1并且所有樣本不屬于同一類,則此節(jié)點(diǎn)為非葉子節(jié)點(diǎn),嘗試樣本中的每個(gè)屬
14、性作為分裂屬性進(jìn)行計(jì)算,嘗試找出不純度最小的一個(gè)劃分,該屬性劃分即為該節(jié)點(diǎn)下的最優(yōu)分支。按上述生成過程遞歸得到的完整的決策樹往往都會出現(xiàn)“過擬合”現(xiàn)象,因此需要對決策樹進(jìn)行剪枝。CART算法采用交叉驗(yàn)證法進(jìn)行剪枝,最終得到的是一棵兼顧復(fù)雜度和錯(cuò)誤率的最優(yōu)二叉樹。1.2基于基于CART樹預(yù)測準(zhǔn)確率的屬性選樹預(yù)測準(zhǔn)確率的屬性選擇方法擇方法本文提出一種基于CART決策樹預(yù)測準(zhǔn)確率計(jì)算的屬性選擇方法,基本思路是利用對決策樹模型預(yù)測準(zhǔn)確率的影響程
15、度來定義某個(gè)屬性(指標(biāo))的重要程度,影響程度越高說明該屬性對評估預(yù)測越重要,影響程度越低說明該屬性與評估預(yù)測越不相關(guān),即越不重要?;谝陨纤悸穪磉M(jìn)行屬性選擇,首先根據(jù)去除某一屬性之后對模型預(yù)測準(zhǔn)確率的影響程度定義“影響系數(shù)值”,其次根據(jù)加入某一屬性之后對模型預(yù)測準(zhǔn)確率的提升程度定義“提升系數(shù)值”,最終結(jié)合以上兩個(gè)系數(shù)值,找到對評估預(yù)測影響最大的關(guān)鍵指標(biāo),建立專利評估的指標(biāo)體系。首先定義“影響系數(shù)值”如式2所示。(2)0iiAAI??其中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 隨機(jī)森林在電信行業(yè)客戶流失預(yù)測中的應(yīng)用.pdf
- Markov模型在電信客戶流失預(yù)測中的應(yīng)用.pdf
- 數(shù)據(jù)挖掘在電信行業(yè)客戶流失分析中的應(yīng)用.pdf
- 多層隨機(jī)森林算法在電信離網(wǎng)預(yù)測中的應(yīng)用
- 電信行業(yè)客戶流失預(yù)測的模型研究.pdf
- 數(shù)據(jù)挖掘在電信客戶流失預(yù)測中的應(yīng)用研究.pdf
- 多層隨機(jī)森林算法在電信離網(wǎng)預(yù)測中的應(yīng)用.pdf
- 數(shù)據(jù)挖掘在預(yù)測電信客戶流失中的研究與應(yīng)用.pdf
- 灰色預(yù)測和神經(jīng)網(wǎng)絡(luò)在電信客戶流失預(yù)測中的應(yīng)用.pdf
- 數(shù)據(jù)挖掘技術(shù)在電信客戶流失預(yù)測中的研究與應(yīng)用.pdf
- 基于數(shù)據(jù)挖掘的電信行業(yè)客戶流失預(yù)測.pdf
- 數(shù)據(jù)挖掘在電信客戶流失中的應(yīng)用.pdf
- 數(shù)據(jù)挖掘技術(shù)在電信行業(yè)客戶流失分析中的應(yīng)用研究.pdf
- 決策樹在電信客戶流失行為預(yù)測中的應(yīng)用研究.pdf
- 電信客戶流失預(yù)測研究.pdf
- 電信客戶流失預(yù)測的研究.pdf
- 數(shù)據(jù)挖掘在電信客戶流失模型中的應(yīng)用.pdf
- 數(shù)據(jù)挖掘及其在電信客戶流失中的應(yīng)用.pdf
- 優(yōu)化決策樹算法在電信客戶流失預(yù)測中的應(yīng)用研究.pdf
- 電信企業(yè)客戶流失預(yù)測模型研究
評論
0/150
提交評論