版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨著商業(yè)智能系統(tǒng)的廣泛應(yīng)用,作為商業(yè)智能核心的數(shù)據(jù)倉庫也被廣泛應(yīng)用以向決策支持系統(tǒng)提供數(shù)據(jù)。一種有效地利用數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行分析的工具是聯(lián)機(jī)分析處理(Online Analytical Proeessing,OLAP),它的出現(xiàn)驅(qū)動(dòng)了數(shù)據(jù)倉庫的產(chǎn)生和發(fā)展,反過來,數(shù)據(jù)倉庫技術(shù)又促進(jìn)了OLAP技術(shù)的完善,基于數(shù)據(jù)倉庫的OLAP系統(tǒng)能夠進(jìn)行數(shù)據(jù)分析、決策和預(yù)測,為多維數(shù)據(jù)在不同粒度上提供了靈活的表示方式。
一般而言,數(shù)據(jù)的存在方
2、式有兩種:結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。通常情況下,結(jié)構(gòu)化數(shù)據(jù)以關(guān)系形式存在于關(guān)系數(shù)據(jù)庫中,而非結(jié)構(gòu)化數(shù)據(jù)主要存在于文本中。據(jù)統(tǒng)計(jì),只有20%的數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù),這部分?jǐn)?shù)據(jù)經(jīng)過數(shù)據(jù)遷移和數(shù)據(jù)清理等操作后能夠直接用來進(jìn)行OLAP分析;而其它80%的非結(jié)構(gòu)化數(shù)據(jù)大部分是人與系統(tǒng)的交互信息或存在于文件中的文本信息,不能被傳統(tǒng)數(shù)據(jù)分析工具直接分析。文本信息在商業(yè)系統(tǒng)和互聯(lián)網(wǎng)上的不斷膨脹使得擴(kuò)展傳統(tǒng)OLAP,使之既能分析結(jié)構(gòu)化數(shù)據(jù)也能進(jìn)行文本數(shù)據(jù)挖掘
3、的需求越來越強(qiáng)烈。
目前,文本OLAP技術(shù)已經(jīng)成為數(shù)據(jù)庫領(lǐng)域的研究熱點(diǎn),并且有了一些很好的成果,如MCX、Topic Cube等,這些方法大體上都是基于文本挖掘、信息檢索或信息抽取的方法,有著各自的優(yōu)缺點(diǎn)和適用領(lǐng)域。
本文在對文本OLAP研究意義、方法和已有的研究成果進(jìn)行了概括介紹以后,結(jié)合B2C網(wǎng)站商業(yè)數(shù)據(jù)分析挖掘任務(wù)的應(yīng)用背景,提出了一種新的框架來將OLAP和文本分析進(jìn)行結(jié)合。與之前的文本OLAP方法相比,本文提
4、出的框架利用了信息抽取和文本挖掘的方法來進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)的多維分析,構(gòu)建了非結(jié)構(gòu)化數(shù)據(jù)的文本維度,利用主題模型挖掘文本主題和生成摘要作為度量,使得度量具有更直觀明了的表達(dá)方式。本文所作的工作如下:
1.提出了一種半監(jiān)督的文本維度抽取算法。通過預(yù)先定義維的層次和指定少量維成員作為種子,利用抽取算法(co-EM)從商品介紹和用戶評論中發(fā)現(xiàn)和抽取新的維成員,以達(dá)到擴(kuò)展文本維的目的。該抽取算法將抽取問題視為分類問題,先把詞分類為維、成
5、員、未標(biāo)記和None四類,然后尋找維、成員這兩類之間的關(guān)聯(lián),從而構(gòu)建維.成員對,將其作為文本維。
2.提出了一種基于LDA(Latent dirichlet allocation)的評論集成的度量表示方法。利用主題模型(LDA),將客觀性強(qiáng)、結(jié)構(gòu)良好的百科介紹和主觀性強(qiáng)的普通評論集成。百科介紹是指來自維基百科、百度百科等結(jié)構(gòu)良好、主觀性弱的評論,如關(guān)于iphone4s的維基百科。以評論的主題和摘要的形式表示文本度量,它改變了以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 文本過濾關(guān)鍵技術(shù)研究.pdf
- 分布式OLAP系統(tǒng)關(guān)鍵技術(shù)研究.pdf
- 基于Dwarf的語義OLAP關(guān)鍵技術(shù)研究與實(shí)現(xiàn).pdf
- 文本挖掘關(guān)鍵技術(shù)研究及實(shí)現(xiàn).pdf
- 關(guān)聯(lián)文本分類關(guān)鍵技術(shù)研究.pdf
- 基于OLAP的營運(yùn)車輛安全管理關(guān)鍵技術(shù)研究.pdf
- 文本情感信息抽取關(guān)鍵技術(shù)研究.pdf
- 文本聚類集成關(guān)鍵技術(shù)研究.pdf
- 動(dòng)態(tài)文本識(shí)別關(guān)鍵技術(shù)研究.pdf
- 文本內(nèi)容過濾的關(guān)鍵技術(shù)研究.pdf
- Web文本分類關(guān)鍵技術(shù)研究.pdf
- 文本分類中的關(guān)鍵技術(shù)研究.pdf
- 文本圖像版面分析關(guān)鍵技術(shù)研究.pdf
- 中文文本聚類關(guān)鍵技術(shù)研究.pdf
- 中醫(yī)醫(yī)案文本挖掘的若干關(guān)鍵技術(shù)研究.pdf
- 短文本相似度的關(guān)鍵技術(shù)研究.pdf
- Web文本分類關(guān)鍵技術(shù)研究與應(yīng)用.pdf
- 自然場景文本信息提取關(guān)鍵技術(shù)研究.pdf
- 大規(guī)模Web文本快速分類關(guān)鍵技術(shù)研究.pdf
- 基于OLAP的網(wǎng)絡(luò)統(tǒng)計(jì)分析系統(tǒng)及關(guān)鍵技術(shù)研究.pdf
評論
0/150
提交評論