2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩187頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)倉庫的創(chuàng)建與應(yīng)用是企業(yè)信息化發(fā)展的必由之路。近十年來,為滿足數(shù)據(jù)的集成、管理和決策支持的目的,在世界各地出現(xiàn)了大量的、不同規(guī)模的數(shù)據(jù)倉庫系統(tǒng)。數(shù)據(jù)倉庫數(shù)據(jù)源的類型也越來越多樣化。尤其是Web數(shù)據(jù)源,文本數(shù)據(jù)源等實(shí)時(shí)數(shù)據(jù)源的出現(xiàn),給數(shù)據(jù)倉庫的構(gòu)建以及ETL提出新的挑戰(zhàn)。數(shù)據(jù)倉庫技術(shù)面臨若干緊迫問題:如何構(gòu)建一個(gè)完善的數(shù)據(jù)倉庫體系以適應(yīng)多種類型的數(shù)據(jù)源;如何高效實(shí)現(xiàn)數(shù)據(jù)倉庫體系中各個(gè)層次的ETL過程;如何保證ETL的實(shí)時(shí)性以及如何改進(jìn)數(shù)

2、據(jù)倉庫的訪問控制模型等。
   本文針對(duì)多類型數(shù)據(jù)源的特點(diǎn),首先分析現(xiàn)有數(shù)據(jù)倉庫的需求和數(shù)據(jù)源的種類。本文以國家海洋數(shù)據(jù)倉庫系統(tǒng)為例,利用局部ETL和全局ETL兩段式ETL過程;演化面向多類型數(shù)據(jù)源的數(shù)據(jù)倉庫體系結(jié)構(gòu),包括抽取層、歸檔層、匯總層、倉庫層和應(yīng)用層,并且詳細(xì)論證了每一層的設(shè)計(jì)思路和作用?;诖?,本文研究了每一層涉及的若干關(guān)鍵問題。
   抽取層和歸檔層主要完成數(shù)據(jù)的抽取和歸檔工作,該層的ETL軟件實(shí)現(xiàn)從數(shù)據(jù)源

3、中抽取數(shù)據(jù)并裝載到歸檔庫中,因此稱為局部ETL。本文重點(diǎn)研究了無結(jié)構(gòu)的Web頁面,半結(jié)構(gòu)化文本和結(jié)構(gòu)化的關(guān)系型數(shù)據(jù)庫這三種數(shù)據(jù)源的局部ETL技術(shù)。首先,針對(duì)無結(jié)構(gòu)的Web頁面數(shù)據(jù)源的局部ETL問題,提出一種較傳統(tǒng)方式更為高效的Web頁面采集存儲(chǔ)方法。把頁面按照其布局特點(diǎn)分為若干個(gè)區(qū)域,把這些區(qū)域作為變化檢測(cè)、存儲(chǔ)和處理單元。
   其次,針對(duì)半結(jié)構(gòu)化文本數(shù)據(jù)源的局部ETL問題,重點(diǎn)研究了半結(jié)構(gòu)化非自描述型科學(xué)文本數(shù)據(jù),提出了一種

4、文本數(shù)據(jù)關(guān)系化方法,實(shí)現(xiàn)從文本模型到對(duì)象模型進(jìn)而到關(guān)系模型的轉(zhuǎn)換。此外如何保障關(guān)系化的效率和安全性也是本研究的重點(diǎn)。
   再次,針對(duì)結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫數(shù)據(jù)源的局部ETL問題,本文分析和總結(jié)了影響ETL引擎性能的主要因素,提出了一種基于分布式數(shù)據(jù)庫的ETL新方法,還提出了一種元數(shù)據(jù)驅(qū)動(dòng)的ETL方法來克服現(xiàn)有ETL工具和手工編碼方式的不足?;贓-LT方法,本文利用SQL語言實(shí)現(xiàn)了元數(shù)據(jù)驅(qū)動(dòng)的ETL工具并詳細(xì)測(cè)試了其執(zhí)行性能。

5、>   匯總層和倉庫層完成從各個(gè)數(shù)據(jù)源的歸檔區(qū)到數(shù)據(jù)倉庫的數(shù)據(jù)集成工作,該ETL過程稱為全局ETL。由于數(shù)據(jù)倉庫的實(shí)時(shí)性要求,多數(shù)據(jù)源全局ETL不僅要面臨數(shù)據(jù)集成問題,還要保證ETL的實(shí)時(shí)或是近實(shí)時(shí)調(diào)度。本文提出了按照集成的自身規(guī)則觸發(fā)ETL過程,并分配資源,以解決全局ETL的調(diào)度執(zhí)行,以及它和其它數(shù)據(jù)倉庫應(yīng)用之間爭(zhēng)奪數(shù)據(jù)倉庫資源的問題。由于實(shí)時(shí)ETL執(zhí)行過程中獨(dú)占數(shù)據(jù)倉庫資源,應(yīng)用端一時(shí)無法連接數(shù)據(jù)倉庫而處于一種離線狀態(tài)。本文設(shè)計(jì)了

6、一個(gè)支持離線運(yùn)行的客戶端框架,使得短時(shí)離線的過程對(duì)客戶端用戶透明。該離線客戶端框架屬于環(huán)境可感知軟件框架,具有一定的通用性。
   數(shù)據(jù)倉庫應(yīng)用層主要包含查詢檢索,OLAP,數(shù)據(jù)挖掘等應(yīng)用,還包括各應(yīng)用的訪問控制系統(tǒng)。數(shù)據(jù)倉庫應(yīng)用乃至數(shù)據(jù)倉庫自身都需要一種良好的訪問控制機(jī)制。本文提出兩種訪問控制模型?;诮巧蜕舷挛牡脑L問控制模型是經(jīng)典的基于角色的訪問控制模型的擴(kuò)展,適用于數(shù)據(jù)倉庫應(yīng)用以及任何面向最終用戶的軟件系統(tǒng)的訪問控制?;?/p>

7、于意圖的訪問控制模型適用于數(shù)據(jù)庫系統(tǒng),數(shù)據(jù)倉庫系統(tǒng)等面向應(yīng)用軟件的系統(tǒng)的訪問控制。本研究還在后者的基礎(chǔ)上進(jìn)一步研究了意圖間的層次關(guān)系挖掘算法。
   總之,本文提出了一種面向多類型數(shù)據(jù)源的數(shù)據(jù)倉庫體系結(jié)構(gòu)和層次劃分,基于該體系結(jié)構(gòu)對(duì)各層次的關(guān)鍵問題進(jìn)行分析和研究。所提出的所有模型和算法均給出實(shí)現(xiàn)方法或運(yùn)用在實(shí)際項(xiàng)目中,理論分析和實(shí)驗(yàn)證明了所提出方法和技術(shù)的可行性和有效性。整個(gè)研究內(nèi)容圍繞著數(shù)據(jù)倉庫和ETL過程的設(shè)計(jì)和實(shí)施,保證了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論