版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、你真的了解自己的網(wǎng)站嗎?每天有多少人訪問您的網(wǎng)站?現(xiàn)在有誰正在您的網(wǎng)站上?他們做了什么?他們從何而來?搜索引擎為您帶來多少點擊?訪問者搜索的關(guān)鍵詞是什么?您的哪個欄目哪個網(wǎng)頁更受歡迎?這些問題的解決就是本文的目的,其手段是通過數(shù)據(jù)倉庫的形式,因為創(chuàng)建數(shù)據(jù)倉庫作為企業(yè)管理決策支持系統(tǒng)的基礎(chǔ)已得到越來越多企業(yè)領(lǐng)導者的認同,也是企業(yè)經(jīng)營管理決策與信息化結(jié)合的趨勢所在。 傳統(tǒng)數(shù)據(jù)倉庫是針對某個主題,對傳統(tǒng)操作型數(shù)據(jù)庫中的數(shù)據(jù)進行抽取、清
2、洗和轉(zhuǎn)換,加載到數(shù)據(jù)倉庫中,形成多維數(shù)據(jù)集。決策者可通過OLAP(在線分析處理)或數(shù)據(jù)挖掘工具對從不知曉的企業(yè)運營的內(nèi)在知識進行挖掘,挖掘隱含在內(nèi)部的商業(yè)知識、商業(yè)模式,或針對企業(yè)以往發(fā)展,探索成功與失敗的原因。 點擊流數(shù)據(jù)倉庫的數(shù)據(jù)來源與一般數(shù)據(jù)倉庫不同,來自點擊流數(shù)據(jù),通過收集、整理、轉(zhuǎn)換這些數(shù)據(jù),建立針對Web點擊信息的各種維度,進而分析網(wǎng)站用戶的行為并最終探索導致這些行為的內(nèi)在原因是點擊流數(shù)據(jù)倉庫的建設(shè)初衷。通過點擊流數(shù)
3、據(jù)倉庫將描述用戶行為的數(shù)據(jù)轉(zhuǎn)為決策者可以利用的有效信息,為網(wǎng)站經(jīng)營者提供決策支持。 通常,Web分析工具能提供一些有利于分析網(wǎng)站基本流量和訪問模式的概要級信息,了解網(wǎng)站的基本運行狀況。但要探究導致網(wǎng)站用戶行為的內(nèi)在因素或其他一些商務問題時,Web分析工具則顯得力不從心。 點擊流數(shù)據(jù)倉庫的建立完全遵從傳統(tǒng)數(shù)據(jù)倉庫建立的原則,其優(yōu)勢源于點擊流數(shù)據(jù)是一種真正改進了的數(shù)據(jù)資源集,加上數(shù)據(jù)倉庫系統(tǒng)本身的成熟應用,使點擊流數(shù)據(jù)倉庫具
4、有其他方式或工具無法比擬的優(yōu)勢。 首先,點擊流數(shù)據(jù)倉庫能夠更好地組織和管理點擊流數(shù)據(jù),能描繪Web用戶完整的行為視圖; 其次點擊流數(shù)據(jù)倉庫中的數(shù)據(jù)通常經(jīng)過抽取、轉(zhuǎn)換和清洗,因而在數(shù)據(jù)倉庫上進行點擊流數(shù)據(jù)分析可免去許多數(shù)據(jù)預處理的工作; 點擊流數(shù)據(jù)倉庫中集成了大量的歷史數(shù)據(jù),而對用戶行為分析的大多數(shù)問題也與時間有關(guān),因此,借助點擊流數(shù)據(jù)倉庫進行點擊流分析更利于理解用戶的行為。 同時,商業(yè)智能通常被理解為將企
5、業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識,幫助企業(yè)做出明智的業(yè)務經(jīng)營決策的工具。商業(yè)智能系統(tǒng)是建立在數(shù)據(jù)倉庫、OLAP(聯(lián)機分析)和數(shù)據(jù)挖掘等技術(shù)的基礎(chǔ)之上,通過收集、整理和分析企業(yè)內(nèi)外部的各種數(shù)據(jù),為企業(yè)管理層提供科學的決策依據(jù)。 而Microsoft SQL Server2005是用于大規(guī)模聯(lián)機事務處理(OLTP)、數(shù)據(jù)倉庫和電子商務應用的數(shù)據(jù)庫和數(shù)據(jù)分析平臺。在商業(yè)智能方面SQLServer2005提供了三大服務和一個工具來實現(xiàn)系統(tǒng)的整合
6、。三大服務是SQLServer Analysis Services(SSAS分析服務)、SQL Server IntegrationServices(SSIS集成服務)、SQL Server Reporting Services(SSRS報表服務)和一個工具是SQL Server Busilless Intelligence Development Studio(BIDS)。 ETL是將業(yè)務系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、清洗轉(zhuǎn)換之后加載
7、到數(shù)據(jù)倉庫的過程,目的是將企業(yè)中的分散、零亂、標準不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析的依據(jù)。ETL是OLTP系統(tǒng)和OLAP系統(tǒng)之間的橋梁,是數(shù)據(jù)從源系統(tǒng)流入數(shù)據(jù)倉庫的通道。ETL是BI項目最重要的一個環(huán)節(jié),通常情況下ETL會花掉整個項目的1/3的時間,ETL設(shè)計的好壞直接關(guān)系到BI項目的成敗。ETL也是一個長期的過程,只有不斷的發(fā)現(xiàn)問題并解決問題,才能使ETL運行效率更高,為項目后期開發(fā)提供準確的數(shù)據(jù)。ETL的實現(xiàn)有多種方法,
8、SQLServer2005的SSIS服務提供了較為完好的ETL解決方案。 因此,應用點擊流數(shù)據(jù)倉庫對網(wǎng)站訪問進行統(tǒng)計分析,在ETL數(shù)據(jù)加載方面使用SQL Server2005的SSIS集成服務,這也是本文主要的應用設(shè)計。主要內(nèi)容章節(jié)安排如下: 第一章緒論部分。主要介紹課題的研究背景,概述課題的研究意義,目的和實際價值。主要針對網(wǎng)站訪問點擊流分析,深入挖掘客戶訪問信息,全面掌握網(wǎng)站運營情況。舉例分析國內(nèi)外產(chǎn)品的研究及應用情
9、況,指出課題的主要研究內(nèi)容。 第二章商業(yè)智能的技術(shù)構(gòu)成與點擊流數(shù)據(jù)倉庫部分。介紹商業(yè)智能、點擊流數(shù)據(jù)倉庫的定義及相關(guān)概念,并對SQL,Server2005實現(xiàn)BI的體系結(jié)構(gòu)進行了解,分析SSIS設(shè)計流程,了解SSIS的典型應用。 第三章Web服務器日志與點擊流數(shù)據(jù)源部分。主要對Web服務器日志文件格式進行分析,研究日志文件與點擊流數(shù)據(jù)源的關(guān)系。 第四章數(shù)據(jù)預處理和基本維度數(shù)據(jù)加載部分。主要分析對W3C日志文件進行
10、預處理的方法、URL的編碼及解碼實現(xiàn)和在后面數(shù)據(jù)倉庫中用到的基本維度如時間、操作系統(tǒng)、瀏覽器及地區(qū)維度的數(shù)據(jù)加載;其中,主要解決IP地址到地區(qū)維度的映射。 第五章數(shù)據(jù)倉庫建模及ETL設(shè)計實現(xiàn)部分。主要對點擊流數(shù)據(jù)倉庫的建模和基于SSIS的ETL的設(shè)計實現(xiàn),其中提出了在數(shù)據(jù)倉庫建模中的一些建議及SSIS性能優(yōu)化的方式。 第六章網(wǎng)站日志分析與展現(xiàn)部分。主要是利用Analysis Services創(chuàng)建多維數(shù)據(jù)集,部署多維數(shù)據(jù)集
11、到Analysis Services數(shù)據(jù)庫;再利用ProClarity Desktop Professional和Excel2007來完成BI前端展現(xiàn)。 第七章總結(jié)與展望。主要對對本文的研究工作進行概括和總結(jié)。 本文主要的亮點主要解決了IP地址到地區(qū)維度、接入商維度的映射,借助接入商分析功能,可以了解網(wǎng)站訪問者中各接入商的比例,從而確定所需要設(shè)置的鏡像服務器的比例。能夠通過深入挖掘客戶訪問信息,全面掌握網(wǎng)站運營情況。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于Web日志挖掘的網(wǎng)站訪問分析系統(tǒng)的設(shè)計與實現(xiàn).pdf
- 基于Web點擊流的頻繁訪問序列挖掘研究.pdf
- 基于CWM的ETL工具的設(shè)計與實現(xiàn).pdf
- 點擊流數(shù)據(jù)倉庫中分析型CRM設(shè)計研究與實現(xiàn).pdf
- 基于工作流和元數(shù)據(jù)的ETL工具研究與實現(xiàn).pdf
- 基于mvc架構(gòu)的網(wǎng)站rbac訪問控制框架設(shè)計與實現(xiàn)
- 基于ETL的畢業(yè)工作系統(tǒng)的設(shè)計與實現(xiàn).pdf
- 基于ETL的數(shù)據(jù)集成系統(tǒng)的設(shè)計與實現(xiàn).pdf
- 基于點擊流分析的Web日志挖掘研究.pdf
- 基于ETL的電信路由報表的設(shè)計與實現(xiàn).pdf
- 河北移動網(wǎng)站用戶訪問量監(jiān)測分析平臺的設(shè)計與實現(xiàn).pdf
- 基于ETL技術(shù)的教育智能報表系統(tǒng)設(shè)計與實現(xiàn).pdf
- 基于用戶訪問行為分析的網(wǎng)站分類研究.pdf
- 基于工作流的網(wǎng)站開發(fā)項目管理的設(shè)計與實現(xiàn).pdf
- 基于URL分析的Web訪問監(jiān)控系統(tǒng)的設(shè)計與實現(xiàn).pdf
- 基于WCF的通信數(shù)據(jù)ETL服務的設(shè)計與實現(xiàn).pdf
- 東莞視窗網(wǎng)站點擊流數(shù)據(jù)倉庫的構(gòu)建.pdf
- 基于ETL的教學質(zhì)量監(jiān)管系統(tǒng)設(shè)計與實現(xiàn).pdf
- 一種基于SCA的ETL架構(gòu)的設(shè)計與實現(xiàn).pdf
- 基于Spark框架的分布式ETL設(shè)計與實現(xiàn).pdf
評論
0/150
提交評論