版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、集成學(xué)習(xí)是機器學(xué)習(xí)領(lǐng)域中的研究熱點問題,其通過組合多個學(xué)習(xí)器來解決一個問題。對比普通的機器學(xué)習(xí)算法在訓(xùn)練數(shù)據(jù)上生成一個學(xué)習(xí)器,集成學(xué)習(xí)生成一組學(xué)習(xí)器并通過各類方式組合它們,從而取得比單個學(xué)習(xí)器更好的泛化能力及分類準(zhǔn)確性。而在提高集成學(xué)習(xí)準(zhǔn)確性方面,由于集成分類器各分類器的多樣性與準(zhǔn)確性之間存在一定關(guān)系。因此,深入研究準(zhǔn)確性同多樣性之間的關(guān)系,并通過增強多樣性來提升分類器準(zhǔn)確性則變得至關(guān)重要。
本文以隨機決策樹(RandomDe
2、cisionTrees,RDT)為基分類器,因RDT作為不穩(wěn)定分類器,集成之后較之單個分類器提升效果明顯,且RDT本身的隨機性也增加了多樣性。此外,分別利用半監(jiān)督學(xué)習(xí)算法Tri-training及新的集成策略BLB(BagofLittleBootstrap),并對比其他集成策略進行實驗。之后,使用多樣性度量方法及準(zhǔn)確性評價方法,對結(jié)果進行匯總分析。在各實驗基礎(chǔ)上,利用微信公眾平臺,采用眾包策略,以航海語料庫作為實驗數(shù)據(jù)集進行文本分類,請
3、用戶參與文章的人工分類來獲取反饋,利用用戶的不同分類來產(chǎn)生多樣性,通過真實的眾包來實現(xiàn)集成學(xué)習(xí),并對反饋結(jié)果進行分析研究,并使用特征選擇和選擇性集成來改進之前的兩種算法。本文具體的工作包括:
(1)本文使用Tri-training半監(jiān)督學(xué)習(xí)算法,以RDT作為基分類器進行迭代訓(xùn)練,最后得出集成分類器。該算法利用半監(jiān)督學(xué)習(xí)的特點,通過使用已標(biāo)記樣本訓(xùn)練出的三個初始分類器互相標(biāo)注未標(biāo)記樣本,改良各基分類器,同時利用未標(biāo)記樣本增加了分
4、類器的多樣性,即增強了各基分類器間的差異。該實驗分別在UCI上的不同規(guī)模的10組小數(shù)據(jù)集以及5組中等規(guī)模數(shù)據(jù)集進行實驗,并選取經(jīng)典集成學(xué)習(xí)算法Bagging和Adaboost作為對比實驗,采用10倍交叉驗證方法來獲取平均測試準(zhǔn)確率及DF、KW和MTI等多種多樣性度量值,分析準(zhǔn)確性與多樣性兩者之間存在的關(guān)系。實驗結(jié)果證明,多樣性的適度增強確實可以提升準(zhǔn)確性。
(2)本文采用BLB作為新的集成策略來進行多樣性研究。由于其融合了Bo
5、otstrap和二次抽樣的特點,通過擾動訓(xùn)練集的方式增加了多樣性。同樣以RDT作為基分類器,在UCI上不同的中小規(guī)模數(shù)據(jù)集進行實驗。并利用實驗結(jié)果分析準(zhǔn)確性與多樣性的關(guān)系。實驗結(jié)果證明,BLB的確比同樣利用Bootstrap的Bagging算法在多數(shù)數(shù)據(jù)集上的準(zhǔn)確性有所提高,從另一側(cè)面反映出多樣性增強對準(zhǔn)確性提高的作用。
(3)最后本文借助微信公眾平臺,采用眾包策略,相比傳統(tǒng)人工分類成本高,難獲得,采用眾包策略的微信平臺人工分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 多樣性密度學(xué)習(xí)算法的研究與應(yīng)用.pdf
- 基因多樣性物種多樣性生態(tài)系統(tǒng)多樣性2、生物多樣性的形成的進化歷程
- 南瓜種質(zhì)資源遺傳多樣性與多糖多樣性的研究.pdf
- 江浙莼菜群落物種多樣性和遺傳多樣性的研究.pdf
- 大豆的SRAP遺傳多樣性及蛋白含量多樣性研究.pdf
- 《生物多樣性公約》研究.pdf
- 白菜遺傳多樣性研究.pdf
- 多樣性教案
- 生物多樣性
- 透視文化多樣性,正確對待文化多樣性
- 多樣性城市事件研究.pdf
- 芨芨草遺傳多樣性研究.pdf
- 中國白粉寄生孢生態(tài)多樣性及遺傳多樣性的初步研究.pdf
- 苦蕎種質(zhì)遺傳多樣性與CHI基因多樣性分析.pdf
- 秦嶺AM真菌多樣性及其與植物多樣性的關(guān)系.pdf
- 月季黑斑病菌薔薇盤二孢(Marssonina Rosae)形態(tài)多樣性、致病性多樣性和遺傳多樣性研究.pdf
- 昆明世博園植物多樣性研究.pdf
- 儒家生物多樣性智慧研究.pdf
- 白木香遺傳多樣性研究.pdf
- 基于數(shù)據(jù)路徑延遲多樣性的集成電路IP保護方法研究.pdf
評論
0/150
提交評論