結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議_第1頁
已閱讀1頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、說明書1結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議技術(shù)領(lǐng)域結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是一種通信協(xié)議,也是一種讓數(shù)據(jù)成為合格的結(jié)構(gòu)化大數(shù)據(jù)的技術(shù)。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議也類似于ETL,ETL是處理現(xiàn)有的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)的問題,而結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是在設(shè)計(jì)信息系統(tǒng)之初就開始預(yù)防數(shù)據(jù)產(chǎn)生問題。ETL是為數(shù)據(jù)治病,結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是預(yù)防數(shù)據(jù)產(chǎn)生疾病。ETL是對(duì)現(xiàn)有技術(shù)所產(chǎn)生的問題進(jìn)行小修小補(bǔ),結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議提出了新的數(shù)據(jù)處理方案。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議也是一種

2、軟件開發(fā)模式,利用結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議所建立的各種信息系統(tǒng)都是大數(shù)據(jù)信息系統(tǒng),只要以鏡像的方式把各大數(shù)據(jù)信息系統(tǒng)中的數(shù)據(jù)上傳到大數(shù)據(jù)中心即可累加成合格的結(jié)構(gòu)化大數(shù)據(jù)。合格的結(jié)構(gòu)化大數(shù)據(jù)是不經(jīng)ETL轉(zhuǎn)換即可高效挖掘的結(jié)構(gòu)化數(shù)據(jù)。背景技術(shù)隨著大數(shù)據(jù)時(shí)代的到來,人們發(fā)現(xiàn)各行各業(yè)已有很多信息系統(tǒng),然而信息系統(tǒng)雖多卻不能滿足大數(shù)據(jù)時(shí)代的需求,信息孤島嚴(yán)重,難以互聯(lián)互通,數(shù)據(jù)共享困難,各行各業(yè)已有很多數(shù)據(jù),然而數(shù)據(jù)雖多,卻難以高效挖掘。目前是利用關(guān)

3、系數(shù)據(jù)庫來解決這些問題,但只能解決局部的問題,不能從根本上解決問題。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議就是針對(duì)這些問題而創(chuàng)立的。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議來源于模仿大腦記憶、聯(lián)想、思維,始于1982年,那時(shí)想讓計(jì)算機(jī)模仿大腦的聯(lián)想功能。發(fā)明內(nèi)容結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是通過對(duì)數(shù)據(jù)的優(yōu)化及軟件開發(fā)模式的改變而避免信息孤島問題、互聯(lián)互通問題、數(shù)據(jù)共享問題產(chǎn)生,并使數(shù)據(jù)容易挖掘。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議可使數(shù)據(jù)具有12個(gè)技術(shù)特性:“唯一性、歸屬性、可識(shí)別性、獨(dú)立性、完整

4、性、規(guī)范性、與系統(tǒng)的耦合性(耦合度為零)、結(jié)構(gòu)統(tǒng)一性、可累加性、可移植性、時(shí)間性、真實(shí)性”,只有同時(shí)滿足12個(gè)技術(shù)特性的數(shù)據(jù)才是合格的結(jié)構(gòu)化大數(shù)據(jù)。發(fā)明所要解決的技術(shù)問題發(fā)明所要解決的技術(shù)問題是大數(shù)據(jù)4V中“數(shù)據(jù)類型多(Variety)”問題及“數(shù)據(jù)速度快(velocity)”問題。所針對(duì)的具體的技術(shù)問題:各行各業(yè)已有很多信息系統(tǒng),然而信息系統(tǒng)雖多卻不能滿足大數(shù)據(jù)時(shí)代的需求,信息孤島嚴(yán)重,難以互聯(lián)互通,數(shù)據(jù)共享困難;各行各業(yè)已有很多數(shù)據(jù)

5、,然而數(shù)據(jù)雖多,卻難以高效挖掘。有益效果實(shí)現(xiàn)互聯(lián)互通、數(shù)據(jù)共享容易,查詢速度快,數(shù)據(jù)挖掘容易。具體實(shí)施方式結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的創(chuàng)新表現(xiàn)在如下5個(gè)方面:1、首次提出了結(jié)構(gòu)化大數(shù)據(jù)的12個(gè)技術(shù)特性,只有同時(shí)滿足12個(gè)技術(shù)特性的數(shù)據(jù)才能成為合格的結(jié)構(gòu)化大數(shù)據(jù)。為使數(shù)據(jù)滿足12個(gè)技術(shù)特性,創(chuàng)立了與12個(gè)技術(shù)特性相對(duì)應(yīng)的12個(gè)數(shù)據(jù)優(yōu)化方法。2、通信的基礎(chǔ)是雙方必須采用同一個(gè)協(xié)議。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議所提出的“結(jié)構(gòu)化大數(shù)據(jù)的12個(gè)技術(shù)特性”就是結(jié)

6、構(gòu)化數(shù)據(jù)互聯(lián)互通的“通信協(xié)議”。說明書3據(jù)庫中的ID有本質(zhì)的差異,ID只是在一張表的范圍內(nèi)標(biāo)識(shí)數(shù)據(jù),大數(shù)據(jù)識(shí)別碼是在大數(shù)據(jù)的范圍內(nèi)標(biāo)識(shí)數(shù)據(jù)。大數(shù)據(jù)范圍:不同的大數(shù)據(jù)所涉及到的范圍不同。在國際貿(mào)易中,大數(shù)據(jù)范圍是全球,國家醫(yī)療大數(shù)據(jù)的大數(shù)據(jù)范圍是醫(yī)療行業(yè),廣州大數(shù)據(jù)的數(shù)據(jù)范圍是廣州市。大數(shù)據(jù)識(shí)別碼可分為兩種,一種是某個(gè)具體事物的識(shí)別碼,猶如設(shè)備的序列號(hào),但與設(shè)備的序列號(hào)有本質(zhì)的差異,設(shè)備序列號(hào)是企業(yè)自己編寫的,大數(shù)據(jù)識(shí)別碼需要按國際統(tǒng)一的

7、標(biāo)準(zhǔn)來編碼;另一種是某類事物的識(shí)別碼。例如,在了解某種型號(hào)的手機(jī)在各個(gè)經(jīng)銷商的銷售情況時(shí),就需要該種型號(hào)手機(jī)的大數(shù)據(jù)識(shí)別碼,因?yàn)槭謾C(jī)由全世界數(shù)十萬個(gè)經(jīng)銷商銷售,手機(jī)廠家需要與全世界數(shù)十萬信息系統(tǒng)互聯(lián)互通。與人相關(guān)的數(shù)據(jù)全應(yīng)含有身份證號(hào),以確保在全球范圍內(nèi),在任何時(shí)間段,與某人相關(guān)的數(shù)據(jù)都是唯一的,可識(shí)別為同一個(gè)人的。大數(shù)據(jù)會(huì)涉及到多個(gè)不同的信息系統(tǒng),而小數(shù)據(jù)只是在同一個(gè)信息系統(tǒng)中生存,因此在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)的唯一性就非常重要,沒有統(tǒng)一

8、的、標(biāo)準(zhǔn)的、規(guī)范的識(shí)別碼會(huì)導(dǎo)致數(shù)據(jù)挖掘非常困難。數(shù)據(jù)的唯一性是大數(shù)據(jù)挖掘、分析的基礎(chǔ)。大數(shù)據(jù)識(shí)別碼必須使可以方便數(shù)據(jù)分類統(tǒng)計(jì)。2、數(shù)據(jù)的歸屬性數(shù)據(jù)的歸屬性:數(shù)據(jù)不僅要反映事物的各種屬性,也要反映出數(shù)據(jù)是歸誰所有(或者說由誰采集、或者說從何而來)。數(shù)據(jù)優(yōu)化方法二:每一個(gè)事物的數(shù)據(jù)中都要含有“數(shù)據(jù)來源”數(shù)據(jù)項(xiàng)?!皵?shù)據(jù)來源”是結(jié)構(gòu)化數(shù)據(jù)具有了“歸屬性”,一般情況下,可用單位名稱來表示“數(shù)據(jù)來源”。大數(shù)據(jù)源于成千上萬家單位,若不標(biāo)明“數(shù)據(jù)來源”

9、,在大數(shù)據(jù)挖掘時(shí)會(huì)引起識(shí)別混亂。3、數(shù)據(jù)的識(shí)別性數(shù)據(jù)的識(shí)別性:是指讓信息系統(tǒng)可識(shí)別,讓人也可識(shí)別。進(jìn)一步而言,不但要讓自己的信息系統(tǒng)識(shí)別,也要能讓他人的信息系統(tǒng)識(shí)別,不但要讓自己能識(shí)別,也要讓他人能識(shí)別。數(shù)據(jù)的識(shí)別性所針對(duì)的問題:關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只有數(shù)據(jù)庫的設(shè)計(jì)人員自己和自己的信息系統(tǒng)可識(shí)別。其它人、其它信息系統(tǒng)只能通過軟件對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行解釋、注釋、翻譯之后才能識(shí)別。數(shù)據(jù)優(yōu)化方法三:以適當(dāng)?shù)娜哂嗍箶?shù)據(jù)可識(shí)別,盡量用標(biāo)準(zhǔn)的、規(guī)范的

10、自然語言來表達(dá)數(shù)據(jù),盡量避免用代碼來表達(dá)數(shù)據(jù)。在對(duì)數(shù)據(jù)進(jìn)行優(yōu)化時(shí)的原則是“讓相應(yīng)領(lǐng)域的技術(shù)人員能看懂,讓別人的信息系統(tǒng)也能識(shí)別,而不能只是數(shù)據(jù)庫的設(shè)計(jì)人員能看懂,也不只是自己的系統(tǒng)能識(shí)別?!痹诖髷?shù)據(jù)環(huán)境中,數(shù)據(jù)的最重要、最關(guān)鍵的一個(gè)特性就是“數(shù)據(jù)的識(shí)別性”。關(guān)系數(shù)據(jù)庫的一個(gè)策略是:盡量減少數(shù)據(jù)冗余。關(guān)系數(shù)據(jù)庫在降低了數(shù)據(jù)冗余的同時(shí)卻增加了識(shí)別數(shù)據(jù)的難度。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略與關(guān)系數(shù)據(jù)庫正好相反。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略:以適當(dāng)?shù)?/p>

11、冗余而使數(shù)據(jù)具有可識(shí)別性,從而使數(shù)據(jù)可以讓他人讀懂,也讓他人的信息系統(tǒng)能識(shí)別。關(guān)系數(shù)據(jù)庫是一種“數(shù)據(jù)、數(shù)據(jù)結(jié)構(gòu)、程序、數(shù)據(jù)庫系統(tǒng)四者密不可分的數(shù)據(jù)庫”。因?yàn)殛P(guān)系數(shù)據(jù)庫中的數(shù)據(jù)脫離具體的表結(jié)構(gòu)和程序以后就變成了無意義的數(shù)據(jù),關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只有在特定的表中才具有意義?!叭f能數(shù)據(jù)結(jié)構(gòu)表”是一種“數(shù)據(jù)與程序無關(guān)的數(shù)據(jù)結(jié)構(gòu)”,或者說是一種“是什么就是什么,與程序無關(guān)”。因?yàn)椤叭f能數(shù)據(jù)結(jié)構(gòu)表”中的數(shù)據(jù)脫離其數(shù)據(jù)結(jié)構(gòu)后,其數(shù)據(jù)的真實(shí)含義不變。“萬

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論