版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、在線學(xué)習(xí)是指一個(gè)學(xué)習(xí)系統(tǒng)能不斷地從新樣本中學(xué)習(xí)到新的知識(shí),并且還能夠保留大部分以前已經(jīng)學(xué)習(xí)到的知識(shí)。在當(dāng)今數(shù)字化信息時(shí)代,隨著各行各業(yè)數(shù)據(jù)規(guī)模的不斷增加,對(duì)時(shí)間和空間資源的需求也在不斷增加,所以研究在線學(xué)習(xí)就成為一種迫切需求。目前主題模型的在線學(xué)習(xí)算法在精度和速度上都不是很理想,因此本文以海量數(shù)據(jù)和流數(shù)據(jù)為研究對(duì)象,著重研究基于概率潛在語(yǔ)義分析(PLSA)模型和潛在狄利克雷分布(LDA)模型更高效的在線學(xué)習(xí)算法,其創(chuàng)新點(diǎn)主要體現(xiàn)在以下幾
2、個(gè)方面:
1)針對(duì)當(dāng)前所面臨的海量數(shù)據(jù)和流數(shù)據(jù),離線算法會(huì)因?yàn)閮?nèi)存不足和數(shù)據(jù)集不能完整獲取而無(wú)法解決文檔分類的問(wèn)題,因此本文提出的在線學(xué)習(xí)算法首先對(duì)海量數(shù)據(jù)進(jìn)行切分,然后對(duì)切分后的若干獨(dú)立段逐個(gè)訓(xùn)練,并且采用前段的結(jié)果參數(shù)計(jì)算當(dāng)前數(shù)據(jù)段的梯度下降。
2)提出基于PLSA模型改進(jìn)因子圖表示的在線消息傳遞(OBP)算法。PLSA模型是一種簡(jiǎn)單的文檔分類方法,然而針對(duì)海量數(shù)據(jù)和流數(shù)據(jù),PLSA模型無(wú)法繼續(xù)采用傳統(tǒng)的離線算法
3、解決文檔分類的問(wèn)題,雖然現(xiàn)在已經(jīng)提出相應(yīng)的在線學(xué)習(xí)算法,但是仍然不能滿足快速和準(zhǔn)確的要求,所以本文提出了基于PLSA模型改進(jìn)因子圖表示的OBP算法。四組公共大規(guī)模數(shù)據(jù)集和三組百度真實(shí)海量數(shù)據(jù)集上的實(shí)驗(yàn),都表明在時(shí)間和空間復(fù)雜度上OBP算法均優(yōu)越于當(dāng)前所流行的基于PLSA模型的OEM算法。
3)提出基于LDA模型改進(jìn)因子圖表示的在線消息傳遞(OBP)算法。針對(duì)PLSA模型在處理海量數(shù)據(jù)時(shí),模型中參數(shù)的個(gè)數(shù)隨文檔數(shù)和單詞數(shù)呈線性增
4、長(zhǎng),從而導(dǎo)致PLSA模型的在線學(xué)習(xí)算法在處理海量數(shù)據(jù)時(shí)非常復(fù)雜這一問(wèn)題,因此本文提出了基于LDA模型改進(jìn)因子圖表示的OBP算法,并且從理論上證明了OBP算法的收斂性,通過(guò)實(shí)驗(yàn)驗(yàn)證該算法的高效性。
4)提出了在線消息傳遞的主題追蹤算法。針對(duì)訓(xùn)練的過(guò)程中因數(shù)據(jù)流不斷地流入,導(dǎo)致每段的主題也跟隨著不斷的變化這一問(wèn)題,本文提出了在線消息傳遞的主題追蹤算法。算法通過(guò)對(duì)流數(shù)據(jù)的不斷訓(xùn)練,給出當(dāng)前最熱冷門主題,并更準(zhǔn)確地預(yù)測(cè)各個(gè)主題的變化趨
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- HDP消息傳遞算法.pdf
- 基于聯(lián)合消息傳遞算法的相位噪聲估計(jì).pdf
- 基于消息傳遞模型的并行調(diào)試技術(shù)及實(shí)現(xiàn).pdf
- 基于消息傳遞算法的小區(qū)間干擾抑制技術(shù)研究.pdf
- 基于消息傳遞系統(tǒng)的多線程并發(fā)對(duì)象模型.pdf
- 基于迭代消息傳遞算法的PN碼快速捕獲方法研究.pdf
- 基于消息傳遞算法的小區(qū)間干擾抑制技術(shù)研究
- 基于FPGA的迭代消息傳遞快速捕獲算法的實(shí)現(xiàn).pdf
- 基于因子圖消息傳遞算法的偽碼快速捕獲方法.pdf
- 在線社交網(wǎng)絡(luò)的動(dòng)態(tài)消息傳播模型研究與應(yīng)用.pdf
- 基于近似消息傳遞的寬帶無(wú)線通信系統(tǒng)迭代接收算法研究.pdf
- 基于編碼輔助和消息傳遞的抗去同步攻擊數(shù)字水印算法研究.pdf
- 支持ERP開(kāi)發(fā)的消息傳遞系統(tǒng)的研究.pdf
- 基于消息中間件的在線學(xué)習(xí)模型研究與應(yīng)用.pdf
- 基于主題模型的混合推薦算法研究.pdf
- 基于主題模型的在線評(píng)論分析方法研究.pdf
- 消息傳遞并行編程環(huán)境mpi
- 基于主題模型的圖像分類算法研究.pdf
- 基于消息傳遞機(jī)制的異步數(shù)據(jù)集成技術(shù)的研究.pdf
- 短信平臺(tái)中消息傳遞技術(shù)的研究與實(shí)現(xiàn).pdf
評(píng)論
0/150
提交評(píng)論