版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)是一種用來分析大規(guī)模文檔的概率主題模型,它從文檔的單詞表示中抽取出語義相關(guān)的主題集合,將文檔從單詞空間變換到主題空間,得到文檔在低維主題空間中的表達(dá)。然而LDA的使用者往往會(huì)遇到兩個(gè)問題:一是公用詞和停用詞幾乎占據(jù)了所有的主題,LDA的主題分布向高頻詞傾斜,能夠代表主題的關(guān)鍵詞被少量的高頻詞掩蓋,從而導(dǎo)致較差的主題可解釋性;二是如何改善基于主題特征的低維空
2、間表示,以提高檢索、聚類和分類準(zhǔn)確率。針對(duì)這兩個(gè)問題,我們從連續(xù)特征、非對(duì)稱先驗(yàn)和稀疏約束這三個(gè)方面對(duì)LDA進(jìn)行分析。
LDA使用離散的詞頻特征作為輸入,假設(shè)語料庫中單詞的重要程度只與詞頻相關(guān)。連續(xù)特征考慮不同位置單詞的區(qū)別,并給予在部分文檔中出現(xiàn)頻率高而在語料庫的其它文檔中出現(xiàn)頻率低的單詞一個(gè)較高的值,而給予在整個(gè)語料庫所有文檔中出現(xiàn)頻率都很高的單詞一個(gè)較低的值。停用詞和公用詞的特征值得到降低,使得主題分布中這些詞的概率值變
3、小,得到連貫的主題表示。因?yàn)楣迷~對(duì)LDA參數(shù)推理和估計(jì)也有一部分貢獻(xiàn),所以連續(xù)特征對(duì)改善主題空間低維表示的效果并不是十分顯著。
LDA的先驗(yàn)通常啟發(fā)性地設(shè)定為對(duì)稱的固定值,然而,利用每次迭代得到的主題信息去估計(jì)先驗(yàn)將會(huì)更加接近于真實(shí)值。對(duì)稱先驗(yàn)使公用詞和停用詞以相同的可能性分配給所有的主題,而非對(duì)稱先驗(yàn)會(huì)使停用詞以較大的可能性分配給有較高先驗(yàn)的主題,讓停用詞集中出現(xiàn)在少數(shù)幾個(gè)主題中。在模型的訓(xùn)練過程中,通過對(duì)先驗(yàn)的學(xué)習(xí),提高
4、了模型的后驗(yàn)概率,使主題特征的低維空間表示更加精確。
通常越稀疏的信息就能越清晰的反映出它所表示的意義,停用詞和公用詞往往出現(xiàn)在多個(gè)主題中,它們的主題表示有較低的稀疏度,而一些反映主題意義的關(guān)鍵詞的主題表示則有較高的稀疏度。在模型參數(shù)估計(jì)和推理的過程中增加稀疏限定,去鼓勵(lì)那些有較高主題稀疏度的單詞,懲罰有較低主題稀疏度的單詞。從而解決LDA中停用詞和公用詞的問題,并改善主題特征的低維空間表示。
本文在LDA模型的基礎(chǔ)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于特征和約束的逆向建模技術(shù)在鞋楦設(shè)計(jì)中的應(yīng)用.pdf
- 基于先驗(yàn)信息編碼的約束學(xué)習(xí)算法研究.pdf
- 基于語義先驗(yàn)約束的多媒體特征表示研究.pdf
- 基于特征和約束的曲面重構(gòu)算法研究——散亂數(shù)據(jù)三角剖分軟件開發(fā).pdf
- 編碼先驗(yàn)約束的粒子群優(yōu)化算法研究及其應(yīng)用.pdf
- 基于先驗(yàn)形狀約束的圖像分割研究.pdf
- 基于非對(duì)稱先驗(yàn)的作者主題模型.pdf
- 雙約束最短路問題和約束情況下點(diǎn)點(diǎn)連接問題的算法研究.pdf
- 基于特征和約束的二維零件視覺反求技術(shù)研究.pdf
- 基于先驗(yàn)約束的圖像盲復(fù)原方法研究.pdf
- 基于先驗(yàn)形狀約束的SAR圖像目標(biāo)分割.pdf
- 基于先驗(yàn)約束優(yōu)化的多幅圖像超分辨率快速重建算法研究.pdf
- 自由曲面特征和約束求解及其有效性維護(hù)的研究.pdf
- 基于底層特征與高層先驗(yàn)的顯著性區(qū)域檢測(cè)算法.pdf
- 企業(yè)層級(jí)組織中的激勵(lì)和約束
- 基于先驗(yàn)信息約束的水平集圖像分割方法研究.pdf
- 基于組合特征的網(wǎng)頁主題塊識(shí)別算法.pdf
- 基于圖像先驗(yàn)建模的圖像復(fù)原技術(shù)研究.pdf
- 基于多元特征約束的景點(diǎn)協(xié)同過濾算法研究.pdf
- 基于A-算法的多目標(biāo)和約束條件下的k優(yōu)換乘方案研究.pdf
評(píng)論
0/150
提交評(píng)論