

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、多媒體數(shù)據(jù)挖掘—WEB挖掘,一.多媒體數(shù)據(jù)挖掘的概念 多媒體數(shù)據(jù)挖掘是:將數(shù)據(jù)挖掘技術(shù)和多媒體信息處理技術(shù)有機(jī)地結(jié)合起來(lái)形成的在多媒體數(shù)據(jù)中進(jìn)行知識(shí)發(fā)現(xiàn)的信息處理方法。從大量的多媒體數(shù)據(jù)集中,通過(guò)綜合分析視聽(tīng)特性和語(yǔ)義,發(fā)現(xiàn)隱含的、有效的、有價(jià)值的、可理解的模式,得出事件的趨向和關(guān)聯(lián),為用戶提供問(wèn)題求解層次的決策支持能力。 基于多媒體數(shù)據(jù)的內(nèi)容特性C,以及這些特性的相關(guān)語(yǔ)義,從大型多媒體集M中,發(fā)現(xiàn)和分析出隱含
2、的、有效的、有價(jià)值的、可理解的模式P??梢猿橄蟮匕淹诰蛴枚嗑S特征空間的一種映射f來(lái)表示: f(M|C)?P,圖像挖掘 (視覺(jué)特性,空間特性) 視頻挖掘(時(shí)間特性,視頻對(duì)象特性,運(yùn)動(dòng)特性) 音頻挖掘 WEB挖掘(內(nèi)容挖掘,結(jié)構(gòu)挖掘,日志挖掘) 多媒體綜合挖掘(挖掘過(guò)程的各階段,綜合利用多媒 體的特性進(jìn)行知識(shí)發(fā)現(xiàn)。使有機(jī)的復(fù)合效果大
3、 于效果之和),二.多媒體挖掘的內(nèi)容,,1.Web數(shù)據(jù)挖掘 Web Mining (Web挖掘)這個(gè)術(shù)語(yǔ)是由Etzioni于1996年首先提出來(lái)的。Web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在Web上的應(yīng)用,它利用數(shù)據(jù)挖掘技術(shù)從與Web相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息,涉及Web技術(shù)、數(shù)據(jù)挖掘、計(jì)算機(jī)語(yǔ)言學(xué)、信息學(xué)等多個(gè)領(lǐng)域,是一項(xiàng)綜合技術(shù)。2. Web數(shù)據(jù)挖掘的分類 作為Web的
4、對(duì)象,Web數(shù)據(jù)包含了內(nèi)容數(shù)據(jù)(content data)、結(jié)構(gòu)數(shù)據(jù)(structure data)和日志數(shù)據(jù)(usage data)三種類型。因此,根據(jù)Web數(shù)據(jù)源類型的不同,Web挖掘可以分為:Web內(nèi)容挖掘(Web Content Mining), Web結(jié)構(gòu)挖掘(Web Structure Mining)和Web日志挖掘(Web Usage,Mining).Web數(shù)據(jù)挖掘如圖所示:,2.1 Web內(nèi)容挖掘 是對(duì)
5、Web頁(yè)面數(shù)據(jù)(包括文本、圖像、音頻、視頻、多媒體和其他各種類型的數(shù)據(jù))的挖掘。Internet有各種類型的服務(wù)和數(shù)據(jù)源,如:WWW, FTP, Telnet等,現(xiàn)在有更多的內(nèi)容如:政府信息服務(wù)、數(shù)字圖書(shū)館、電子商務(wù)數(shù)據(jù)及其他各種通過(guò)Web形式訪問(wèn)的數(shù)據(jù)庫(kù)。 Web內(nèi)容挖掘一般從兩個(gè)角度進(jìn)行研究:從用戶的角度,研究怎樣提高信息質(zhì)量和幫助用戶過(guò)濾信息;從DB的角度,研究怎樣對(duì)Web上的數(shù)據(jù)進(jìn)行集成、建模,以支持對(duì)Web數(shù)據(jù)的復(fù)
6、雜查詢。,Web內(nèi)容挖掘是從Web資源中發(fā)現(xiàn)信息或知識(shí)的過(guò)程。在創(chuàng)建個(gè)性化服務(wù)系統(tǒng)時(shí),人們通常應(yīng)用Web內(nèi)容挖掘?qū)W(wǎng)頁(yè)內(nèi)容進(jìn)行分析,其中網(wǎng)頁(yè)的自動(dòng)分類技術(shù)在搜索引擎、數(shù)字化圖書(shū)館等領(lǐng)域得到了廣泛的應(yīng)用。2.2 Web結(jié)構(gòu)挖掘 Web結(jié)構(gòu)挖掘的對(duì)象是Web本身的超連接,包括頁(yè)面內(nèi)部的結(jié)構(gòu)以及頁(yè)面之間的結(jié)構(gòu)。對(duì)于給定的Web文檔集合,運(yùn)用引用分析方法找到同一網(wǎng)站內(nèi)部以及不同網(wǎng)站之間的連接關(guān)系,通過(guò)算法發(fā)現(xiàn)他們之間連接情況的有用
7、信息。挖掘Web結(jié)構(gòu)信息對(duì)于導(dǎo)航用戶瀏覽行為、改進(jìn)站點(diǎn)設(shè)計(jì)評(píng)價(jià)頁(yè)面的重要性等都非常重要。Web結(jié)構(gòu)挖掘通常需要整個(gè)Web的全局?jǐn)?shù)據(jù),因此在個(gè)性化搜索引擎或主題搜,索引擎研究領(lǐng)域得到了廣泛的應(yīng)用。如一個(gè)站點(diǎn)的入鏈數(shù)目遠(yuǎn)大于出鏈數(shù)目,那么這個(gè)站點(diǎn)可能是服務(wù)器;如果一個(gè)頁(yè)面經(jīng)常被引用,那么可以反映該頁(yè)面的流行程度和重要性等。,2.3 Web日志挖掘(Web usage Mining) Web日志挖掘的對(duì)象是Web使用記錄數(shù)據(jù),除了
8、服務(wù)器的日志記錄外還包括代理服務(wù)器日志、瀏覽器端日志、注冊(cè)信息、用戶會(huì)話信息、交易信息、Cookie中的信息、用戶查詢、鼠標(biāo)點(diǎn)擊流等一切用戶與站點(diǎn)之間可能的交互記錄,因此Web使用記錄的數(shù)據(jù)量是非常巨大的,而且數(shù)據(jù)類型也相當(dāng)豐富。通過(guò)挖掘相關(guān)的Web日志記錄,從中發(fā)現(xiàn)用戶訪問(wèn)Web頁(yè)面的模式;通過(guò)分析日志記錄中的規(guī)律,來(lái)識(shí)別用戶的忠實(shí)度、喜好、滿意度,從中發(fā)現(xiàn)潛在用戶,增強(qiáng)站點(diǎn)的服務(wù)競(jìng)爭(zhēng)力。 Web日志挖掘?qū)υ磾?shù)據(jù)的處理方法
9、可以分為兩,類,一種是將Web使用記錄數(shù)據(jù)轉(zhuǎn)換并傳遞進(jìn)傳統(tǒng)的關(guān)系表里,再使用數(shù)據(jù)挖掘算法進(jìn)行常規(guī)挖掘;另一種是將Web使用記錄數(shù)據(jù)直接預(yù)處理再進(jìn)行挖掘。 Web日志挖掘技術(shù)通常可以應(yīng)用到兩個(gè)領(lǐng)域:當(dāng)用來(lái)分析Web服務(wù)器的訪問(wèn)日志時(shí),可以利用挖掘得到的服務(wù)模型來(lái)設(shè)計(jì)適應(yīng)性Web站點(diǎn);當(dāng)應(yīng)用到單個(gè)用戶時(shí),通過(guò)分析用戶的訪問(wèn)歷史來(lái)發(fā)現(xiàn)有用的用戶訪問(wèn)模式。Web日志挖掘由于處理數(shù)據(jù)對(duì)象通常為用戶的訪問(wèn)歷史或服務(wù)器的訪問(wèn)日志,無(wú)法得知
10、數(shù)據(jù)對(duì)象代表的內(nèi)容,得到的結(jié)果一般比較粗糙,但是由于該方法比較成熟而且實(shí)現(xiàn)起來(lái)也較內(nèi)容挖掘簡(jiǎn)單,在個(gè)性化系統(tǒng)中也得到了較廣泛的應(yīng)用。,3.WEB數(shù)據(jù)挖掘的流程 數(shù)據(jù)采集 數(shù)據(jù)預(yù)處理 模式挖掘 模式評(píng)估,,3.1數(shù)據(jù)采集 Web挖掘的數(shù)據(jù)源來(lái)自于Web頁(yè)面上的信息、Web訪問(wèn)形式的數(shù)據(jù)庫(kù)、Web頁(yè)面內(nèi)部的結(jié)構(gòu)以及頁(yè)面之間的結(jié)構(gòu)信息以及Web服務(wù)器上的使用記錄數(shù)據(jù),如服務(wù)器日志、用戶會(huì)話信息、交
11、易信息等。Web數(shù)據(jù)挖掘,針對(duì)不同的采集對(duì)象,需要應(yīng)用不同的數(shù)據(jù)采集技術(shù)。,3.2數(shù)據(jù)預(yù)處理 一般收集的數(shù)據(jù)都具有不一致性、冗余性、模糊性及不完整性,需要對(duì)收集的數(shù)據(jù)進(jìn)行必要的預(yù)處理,清除“臟”數(shù)據(jù),準(zhǔn)備正確、完整、干凈的數(shù)據(jù)源,通過(guò)挖掘算法,獲得真實(shí)有效的挖掘模式。數(shù)據(jù)預(yù)處理主要包括: (1)數(shù)據(jù)清理:填充遺漏值,平滑噪聲數(shù)據(jù),識(shí)別離群點(diǎn)和刪除噪聲數(shù)據(jù),修正不一致數(shù)據(jù); (2)數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)庫(kù)或文件,
12、整合成語(yǔ)義完整的數(shù)據(jù)集,監(jiān)測(cè)和消除數(shù)值沖突,消除重復(fù)和冗余的數(shù)據(jù); (3)數(shù)據(jù)轉(zhuǎn)換:從數(shù)據(jù)中刪除噪聲,給特定的屬性構(gòu)造新的屬性;,(4)數(shù)據(jù)離散化:針對(duì)數(shù)值型數(shù)據(jù),將一個(gè)連續(xù)的范圍劃分成多個(gè)區(qū)間。3.3模式挖掘 應(yīng)用不同的Web挖掘算法或機(jī)器學(xué)習(xí)技術(shù)發(fā)現(xiàn)用戶訪問(wèn)模式。常用的挖掘技術(shù)主要有以下幾種: (1)回歸分析:主要用于了解自變量(independent variable)與因變量(dependent v
13、ariable)間的數(shù)量關(guān)系。主要目的:1)了解自變量與因變量關(guān)系方向及強(qiáng)度。2)以自變量建立模型對(duì)因變量作預(yù)測(cè)。 (2)關(guān)聯(lián)規(guī)則:分析發(fā)現(xiàn)數(shù)據(jù)庫(kù)中不同變量或個(gè)體之間的關(guān)系程度(概率大小),用這些規(guī)則找出行為模型。關(guān)聯(lián)規(guī)則中的兩個(gè)重要參數(shù)是:支持度(Support)和可信度(Confidence)。Apriori算法,,利用循序漸進(jìn)的方式,找出數(shù)據(jù)庫(kù)中項(xiàng)目的關(guān)系,以形成規(guī)則,是最具代表性的算法之一。 (3)聚類
14、分析:統(tǒng)計(jì)學(xué)家通常應(yīng)用聚類分析法來(lái)對(duì)數(shù)據(jù)做簡(jiǎn)化的工作及分類,從而把相似的個(gè)體(觀測(cè)物)歸于一類。 (4)決策樹(shù)分析:利用概率論的原理,并且利用樹(shù)形圖作為分析工具(用決策點(diǎn)代表決策問(wèn)題,用方案分枝代表可供選擇的方案,用概率分枝代表方案可能出現(xiàn)的各種結(jié)果),經(jīng)過(guò)對(duì)各種方案在各種結(jié)果條件下?lián)p益值的計(jì)算比較,為決策者提供決策依據(jù)。 (5)時(shí)間序列分析:從大量的時(shí)間數(shù)據(jù)序列中提取人們不知道的,但潛在有用的、與時(shí)間
15、相關(guān)的信息,用于揭示其內(nèi)在規(guī)律(如波動(dòng)的周期、振幅、趨勢(shì)的,種類等),進(jìn)而完成預(yù)測(cè)行為,指導(dǎo)未來(lái)決策。3.4模式評(píng)估 對(duì)挖掘得出的所有模式進(jìn)行分析、評(píng)價(jià)、解釋,并將有趣模式轉(zhuǎn)化為可直觀表示的形式。4.Web數(shù)據(jù)挖掘的主要應(yīng)用 目前,Web數(shù)據(jù)挖掘的研究重點(diǎn)已從理論轉(zhuǎn)向?qū)嶋H應(yīng)用。4.1Web數(shù)據(jù)挖掘的理論研究方向: ①動(dòng)態(tài)更新;② Web知識(shí)庫(kù)維護(hù);③內(nèi)在機(jī)制研究;④專注多媒體挖掘,研發(fā)出高效算法;⑤
16、圖像、文本對(duì)應(yīng)的挖掘算法(結(jié)構(gòu)、半結(jié)構(gòu)下) ⑥搭建自組織網(wǎng)站時(shí),對(duì)序列模式、關(guān)聯(lián)規(guī)則進(jìn)行細(xì)致研究。,4.2 Web數(shù)據(jù)挖掘技術(shù)應(yīng)用于電子商務(wù)中 對(duì)電子商務(wù)中的Web日志和訪問(wèn)內(nèi)容進(jìn)行挖掘,可以針對(duì)不同的客戶提供個(gè)性化的產(chǎn)品、挽留老客戶、發(fā)現(xiàn)潛在的新客戶、改進(jìn)站點(diǎn)設(shè)計(jì)方便客戶瀏覽、向顧客推薦商品和引導(dǎo)客戶購(gòu)買商品。4.3 Web數(shù)據(jù)挖掘技術(shù)應(yīng)用于搜索引擎中 利用Web數(shù)據(jù)挖掘技術(shù),提高Web檢索的速度和準(zhǔn)確率,更好的滿足
17、用戶的個(gè)性化需求,如:頁(yè)面文本自動(dòng)分類提高檢索速度;對(duì)頁(yè)面的權(quán)威度進(jìn)行計(jì)算和排序,使用戶優(yōu)先看到權(quán)威度高的頁(yè)面;通過(guò)分析用戶歷史瀏覽信息發(fā)現(xiàn)用戶興趣偏好。4.4應(yīng)用于知識(shí)服務(wù)中 利用Web挖掘技術(shù),從Web頁(yè)面中獲取基本知識(shí),元素(如:概念、概念間的語(yǔ)義關(guān)系,知識(shí)元、知識(shí)元間的關(guān)聯(lián)關(guān)系),并構(gòu)建面向特定領(lǐng)域的知識(shí)體系,重組Web頁(yè)面中的知識(shí)元素,提供符合人們認(rèn)知特點(diǎn)的知識(shí)服務(wù)。4.5 Web數(shù)據(jù)挖掘技術(shù)應(yīng)用于電子政務(wù)中
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 社交網(wǎng)絡(luò)中的多媒體數(shù)據(jù)挖掘.pdf
- 多媒體數(shù)據(jù)挖掘中的跨數(shù)據(jù)域?qū)W習(xí).pdf
- WWW上基于內(nèi)容的多媒體數(shù)據(jù)挖掘.pdf
- 基于Web的多媒體數(shù)據(jù)挖掘的研究.pdf
- 基于web的多媒體數(shù)據(jù)挖掘的研究與設(shè)計(jì).pdf
- 多媒體數(shù)據(jù)挖掘及其在地震素材管理系統(tǒng)中的應(yīng)用.pdf
- 論數(shù)字化圖書(shū)館中的多媒體數(shù)據(jù)挖掘技術(shù)
- 面向知識(shí)服務(wù)的多媒體數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究.pdf
- 基于數(shù)據(jù)挖掘的中小學(xué)多媒體教學(xué)績(jī)效評(píng)價(jià)研究.pdf
- 補(bǔ)充多媒體數(shù)據(jù)壓縮技術(shù)
- 基于多媒體空間數(shù)據(jù)庫(kù)的時(shí)變模式挖掘.pdf
- 多媒體數(shù)據(jù)管理系統(tǒng).pdf
- 基于信息重組思想的多媒體數(shù)據(jù)壓縮和多媒體數(shù)據(jù)安全技術(shù)研究.pdf
- 可視的多媒體數(shù)據(jù)語(yǔ)義標(biāo)注.pdf
- 中科多媒體教育資源數(shù)據(jù)庫(kù)
- 高速多媒體衛(wèi)星數(shù)據(jù)接收卡.pdf
- 多媒體數(shù)據(jù)庫(kù)課后習(xí)題答案
- 中科多媒體教育資源數(shù)據(jù)庫(kù)
- 多媒體數(shù)據(jù)庫(kù)的了解[文獻(xiàn)綜述]
- 網(wǎng)絡(luò)多媒體數(shù)據(jù)處理方法研究.pdf
評(píng)論
0/150
提交評(píng)論