版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、文本作為一種人類信息交流的基本方式,在非結(jié)構(gòu)化數(shù)據(jù)中占有極其重要的地位。與其他形式的數(shù)據(jù)相比,文本數(shù)據(jù)通常價(jià)值較高,因而對(duì)文本數(shù)據(jù)自動(dòng)分析和挖掘方法的研究一直是計(jì)算機(jī)領(lǐng)域的一個(gè)熱門話題。目前互聯(lián)網(wǎng)上的文本數(shù)據(jù)增長十分迅速,且是每時(shí)每刻持續(xù)不斷生成的,因此可將其看作是一條條連續(xù)的文本流。與傳統(tǒng)文本數(shù)據(jù)相比,流式文本數(shù)據(jù)具有一些新的特點(diǎn):1)文本流中的很多數(shù)據(jù)是低質(zhì)量的,較難提取有效語義信息;2)文本流中的模式是動(dòng)態(tài)變化的,對(duì)挖掘技術(shù)提出了
2、準(zhǔn)確捕捉這種變化的要求。以上這些特點(diǎn)對(duì)現(xiàn)有文本數(shù)據(jù)挖掘技術(shù)提出了新的挑戰(zhàn)。
目前流式文本數(shù)據(jù)挖掘技術(shù)尚未十分完善,急需提出針對(duì)以上挑戰(zhàn)的相關(guān)算法。層次結(jié)構(gòu)作為常見的數(shù)據(jù)組織方式,不僅能夠更加精確的反映數(shù)據(jù)間的固有關(guān)系,并且是實(shí)現(xiàn)自適應(yīng)方法的一種重要途徑,而基于自適應(yīng)方法可實(shí)現(xiàn)自動(dòng)匹配流式數(shù)據(jù)中不斷變化的模式。本文將層次結(jié)構(gòu)應(yīng)用到流式文本數(shù)據(jù)挖掘中,從概念層次構(gòu)建、稀有類別檢測和在線主題檢測等三方面入手,提出了三種方法以期提高流
3、式文本數(shù)據(jù)挖掘的性能。最后基于上述方法,本文提出了一種針對(duì)流式文本數(shù)據(jù)挖掘的半監(jiān)督在線層次主題模型。本文具體貢獻(xiàn)如下:
1)針對(duì)現(xiàn)有概念層次構(gòu)建方法在微博、用戶評(píng)論等不規(guī)范短文本中語義關(guān)系提取精度較低的問題,提出了一種基于復(fù)合語義距離的多路概念層次構(gòu)建方法。該方法中的復(fù)合語義距離結(jié)合了語義字典距離和上下文距離的優(yōu)點(diǎn),并且保證了方法的適用范圍和所獲取的語義關(guān)系的精度。同時(shí),本文還提出一種改進(jìn)的多路凝聚聚類算法用以構(gòu)建概念層次。相
4、對(duì)傳統(tǒng)凝聚聚類而言,多路凝聚聚類能保持概念對(duì)間的相對(duì)遠(yuǎn)近關(guān)系。此外,本文還提出一種改進(jìn)的概念層次相似度標(biāo)準(zhǔn),該標(biāo)準(zhǔn)解決了其原始形式中可能出現(xiàn)的多次匹配問題。實(shí)驗(yàn)結(jié)果表明,該方法生成的概念層次與真實(shí)概念層次的相似度為所有對(duì)比方法中最高。
2)針對(duì)從文本流的概念層次或主題層次中發(fā)現(xiàn)新概念或主題的問題,提出了一種基于層次密度聚類的稀有類別檢測方法。在社交網(wǎng)絡(luò)或新聞流中,發(fā)現(xiàn)新穎的文檔或者新興主題是很有價(jià)值的,異常檢測在新穎數(shù)據(jù)檢測中
5、可發(fā)揮關(guān)鍵作用。為了改進(jìn)現(xiàn)有檢測方法,本文首先提出了一種基于相對(duì)距離約束和核函數(shù)的半監(jiān)督密度聚類算法(RKMS)。與其原始形式相比,RKMS可擴(kuò)展性更強(qiáng),且更加適合層次聚類這種應(yīng)用場景。然后本文基于RKMS提出了一種基于層次結(jié)構(gòu)的稀有類別檢測方法。與現(xiàn)有同類方法相比,該方法的優(yōu)點(diǎn)是無需預(yù)先指定類別的數(shù)目,且可通過結(jié)合主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)實(shí)現(xiàn)模型的逐步優(yōu)化。實(shí)驗(yàn)結(jié)果表明,該稀有類別檢測方法在使用線性映射和非線性映射的情況下均比其他方法表現(xiàn)
6、更好。
3)針對(duì)從持續(xù)輸入的文本流中檢測和跟蹤主題的問題,提出了一種在線的層次主題模型(HONMF)。現(xiàn)有在線主題模型大多以扁平方式組織已發(fā)現(xiàn)的主題,但將每個(gè)主題視作互相獨(dú)立的個(gè)體忽略了主題間的潛在關(guān)系,因而限制了這些主題模型的表達(dá)能力。針對(duì)該問題,本文首先對(duì)在線字典學(xué)習(xí)方法進(jìn)行擴(kuò)展并提出一種層次的在線稀疏矩陣分解方法,其可生成以層次形式組織的主題。同時(shí),本文借鑒均值漂移(MeanShift)聚類的思想提出一種基于主題帶寬(T
7、opic Bandwidth)的主題層次結(jié)構(gòu)控制機(jī)制,其可自適應(yīng)的決定主題節(jié)點(diǎn)的數(shù)目和主題層次的深度。此外,本文還提出在已有主題層次中檢測新興主題和消亡主題的標(biāo)準(zhǔn),并基于這些標(biāo)準(zhǔn)實(shí)現(xiàn)主題層次結(jié)構(gòu)的動(dòng)態(tài)演化。實(shí)驗(yàn)結(jié)果表明,HONMF能夠在更短的運(yùn)行時(shí)間內(nèi)發(fā)現(xiàn)更高質(zhì)量的主題,并且可跟蹤主題結(jié)構(gòu)的變化。
4)為了驗(yàn)證本文研究路線的整體效果和進(jìn)一步提升HONMF的性能,提出了一種基于語義關(guān)系的半監(jiān)督層次在線主題檢測框架(SSHONMF
8、),其將本文前述研究工作整合融合到一套流程中。該流程首先根據(jù)語義詞典和訓(xùn)練文檔生成針對(duì)特定文本挖掘任務(wù)的概念層次,并基于其中的語義關(guān)系對(duì)原始文檔矩陣進(jìn)行調(diào)整。接著其會(huì)使用HONMF檢測文本流中的主題層次,同時(shí)基于本文稀有類別檢測方法中的選擇指標(biāo)從主題層次中選擇出線索文檔。最后,其將根據(jù)線索文檔學(xué)習(xí)出新的相似度度量并用于后續(xù)的HONMF過程。實(shí)驗(yàn)結(jié)果表明,通過結(jié)合前述方法,SSHONMF的性能比HONMF有所提升,證明了本文研究路線的合理
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于WWW的文本數(shù)據(jù)挖掘研究.pdf
- 基于XML的Web文本數(shù)據(jù)挖掘研究.pdf
- 基于XML的文本數(shù)據(jù)挖掘的研究.pdf
- Web文本數(shù)據(jù)挖掘研究.pdf
- 基于XML的Web文本數(shù)據(jù)挖掘的研究.pdf
- 基于神經(jīng)網(wǎng)的文本數(shù)據(jù)庫挖掘.pdf
- 基于潛在語義結(jié)構(gòu)的文本層次分類.pdf
- 基于海量文本數(shù)據(jù)的實(shí)體關(guān)系抽取及挖掘.pdf
- 基于語義的文本數(shù)字水印研究.pdf
- 基于文本數(shù)據(jù)挖掘技術(shù)的用戶需求分析研究.pdf
- 基于海量文本數(shù)據(jù)的實(shí)體關(guān)系抽取及挖掘(1)
- 基于文本數(shù)據(jù)挖掘的當(dāng)代針灸臨床流派研究.pdf
- 基于XBRL層次結(jié)構(gòu)的數(shù)據(jù)挖掘研究.pdf
- 基于文本數(shù)據(jù)挖掘的微博情感分析與監(jiān)控系統(tǒng).pdf
- 時(shí)態(tài)文本數(shù)據(jù)的周期性挖掘研究.pdf
- 文本數(shù)據(jù)挖掘中基于云模型的特征選擇方法研究.pdf
- 基于主題模型的文本語義挖掘.pdf
- 基于語義分析的文本挖掘研究.pdf
- 基于主題模型的文本語義挖掘
- Web數(shù)據(jù)挖掘及其在網(wǎng)絡(luò)新聞文本數(shù)據(jù)中的應(yīng)用.pdf
評(píng)論
0/150
提交評(píng)論