版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著互聯(lián)網(wǎng)的興起,大規(guī)模數(shù)據(jù)流(特別是文本數(shù)據(jù)流)在實(shí)際應(yīng)用中不斷涌現(xiàn)。文本流的高維性、大規(guī)模性和概念漂移性等特點(diǎn)使傳統(tǒng)靜態(tài)分類方法很難有效的處理文本流分類問(wèn)題,因而近年來(lái),面向文本流的分類問(wèn)題引起了學(xué)者的廣泛關(guān)注。本文針對(duì)高維文本流的特點(diǎn),提出了四種基于集成學(xué)習(xí)的文本流分類算法,以解決文本流面臨的分類問(wèn)題。
歸納起來(lái),文本流具有以下五個(gè)特點(diǎn):第一,文本流具有概念漂移的特點(diǎn)。第二,文本流具有大規(guī)模性和高維性的特點(diǎn)。第三,由于樣
2、本的人工標(biāo)注信息難以及時(shí)獲取,文本流中充斥著大量無(wú)類標(biāo)樣本。第四,文本流往往伴隨著類別不平衡的特點(diǎn)。第五,在實(shí)際應(yīng)用中,樣本可能屬于多個(gè)類別(即一個(gè)類別子集)。由于類別子集的可能組合極多,導(dǎo)致了分類的復(fù)雜性。
針對(duì)文本流以上特點(diǎn)所帶來(lái)的復(fù)雜的分類問(wèn)題,本文提出了四種文本流分類算法,主要研究工作如下:
首先,針對(duì)文本流概念漂移和海量高維性的特點(diǎn),提出了一種基于集成學(xué)習(xí)的動(dòng)態(tài)聚類森林分類算法(DCF)。該算法有兩個(gè)關(guān)鍵策
3、略,即自適應(yīng)選擇策略和投票策略。自適應(yīng)選擇策略通過(guò)定義精度權(quán)重來(lái)評(píng)估子分類器對(duì)當(dāng)前數(shù)據(jù)塊的性能,從而動(dòng)態(tài)地選擇最優(yōu)子樹(shù)。為了在兼顧歷史數(shù)據(jù)的基礎(chǔ)上充分挖掘最新數(shù)據(jù)的信息,DCF算法的投票策略結(jié)合了精度權(quán)重和置信權(quán)重。本文從理論上優(yōu)化了DCF算法的參數(shù)選擇并分析了DCF算法的性能。在八個(gè)模擬文本流和真實(shí)文本流上的實(shí)驗(yàn)結(jié)果表明:DCF算法具有較好的平均精度和點(diǎn)精度性能。
其次,針對(duì)文本流的部分標(biāo)注問(wèn)題,設(shè)計(jì)了一種半監(jiān)督聚類森林分類
4、算法(CCEM-PL)。CCEM-PL算法提出了一種新的半監(jiān)督聚類樹(shù)模型作為子分類器。半監(jiān)督聚類樹(shù)通過(guò)生成實(shí)節(jié)點(diǎn)和虛節(jié)點(diǎn)充分挖掘了無(wú)類標(biāo)樣本的信息,不僅使之輔助劃分類別分界面,還反映了最新概念的分布情況。CCEM-PL算法根據(jù)半監(jiān)督聚類樹(shù)的結(jié)構(gòu)分布定義實(shí)精度權(quán)重和相似度權(quán)重,并依據(jù)這兩類權(quán)重對(duì)半監(jiān)督聚類樹(shù)進(jìn)行投票。在四個(gè)文本流上的實(shí)驗(yàn)結(jié)果表明CCEM-PL算法具有良好的分類性能。
再次,針對(duì)文本流動(dòng)態(tài)不平衡性問(wèn)題,提出了一種不
5、平衡文本流的聚類森林分類算法(CFIM)。為了著重分析少數(shù)類概念的漂移情況,CFIM算法設(shè)計(jì)了動(dòng)態(tài)重抽樣策略。該策略通過(guò)自適應(yīng)的收集符合當(dāng)前概念的少數(shù)類樣本和錯(cuò)分樣本,不但能平衡不同類別的樣本數(shù),同時(shí)還能加強(qiáng)對(duì)錯(cuò)分樣本的訓(xùn)練,從而達(dá)到提高分類器性能的目的。通過(guò)對(duì)五個(gè)不平衡的文本流進(jìn)行實(shí)驗(yàn),結(jié)果表明,CFIM算法與傳統(tǒng)的分類算法相比,具有良好的分類性能。
最后,針對(duì)多類標(biāo)文本流的分類問(wèn)題,本文提出了一種多類標(biāo)聚類森林分類算法(M
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向文本流的聚類樹(shù)分類方法研究.pdf
- 基于語(yǔ)義過(guò)濾的文本和文本流聚類研究.pdf
- 基于聚類的主題模型短文本分類方法研究.pdf
- 詞聚類用于文本分類的方法研究.pdf
- 基于聚類和分類技術(shù)的文本分類研究.pdf
- 基于RI方法的文本聚類研究.pdf
- 基于聚類技術(shù)的網(wǎng)頁(yè)分類應(yīng)用-基于后綴樹(shù)的中文文本聚類方法.pdf
- 基于混合文本集的文本聚類方法研究.pdf
- 基于文本聚類的客戶細(xì)分方法研究.pdf
- 基于hSync算法的文本聚類方法研究.pdf
- 基于無(wú)監(jiān)督聚類和樸素貝葉斯分類的文本分類方法研究.pdf
- 基于模糊聚類的客戶分類方法研究.pdf
- 基于模糊聚類的文本挖掘方法研究.pdf
- 基于聚類樹(shù)的多類標(biāo)文本分類算法研究.pdf
- 流數(shù)據(jù)的聚類分類算法研究.pdf
- 基于譜聚類的文本聚類算法研究.pdf
- 基于密度的數(shù)據(jù)流聚類方法研究.pdf
- 基于改進(jìn)隨機(jī)聚類決策森林算法的遙感影像分類研究.pdf
- 基于圖模型聚類的文本摘要方法研究.pdf
- 基于頻繁項(xiàng)集的文本聚類方法研究.pdf
評(píng)論
0/150
提交評(píng)論