版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、<p> 在線云存儲(chǔ)技術(shù)的研究</p><p> 摘 要:作為SaaS的典型應(yīng)用,在線云存儲(chǔ)提供了云端的數(shù)據(jù)存放和操作,國(guó)內(nèi)的各大互聯(lián)網(wǎng)公司都對(duì)大眾提供了各自的“云網(wǎng)盤(pán)”,用戶(hù)可以將自己的文件上傳到云端,然后便可以通過(guò)網(wǎng)絡(luò)訪問(wèn)這些文件。云網(wǎng)盤(pán)在技術(shù)實(shí)現(xiàn)上仍需要考慮多方面的問(wèn)題,如用戶(hù)鑒權(quán)、物理數(shù)據(jù)存儲(chǔ)、空間壓縮等。同時(shí),用戶(hù)日益關(guān)注的隱私、數(shù)據(jù)可靠性及如何盈利也是需要考慮的對(duì)象。本文通過(guò)對(duì)在線云存
2、儲(chǔ)實(shí)現(xiàn)中可能會(huì)遇見(jiàn)的技術(shù)問(wèn)題進(jìn)行解讀,通過(guò)閱讀相關(guān)資料和文檔,并結(jié)合日常學(xué)習(xí)中所學(xué)到的知識(shí),從一定程度上提出相應(yīng)的解決方案。</p><p> 關(guān)鍵詞:云計(jì)算;在線云存儲(chǔ);云網(wǎng)盤(pán);解決方案</p><p> Abstract: As a typical application of SaaS, online cloud storage provides cloud data stora
3、ge and handling, the major Internet companies are on the public provides their cloud network disk, users can own file upload to the cloud, can then be accessed through a network is presented in this paper. Cloud network
4、disk in the technology still need to consider many aspects, such as user authentication, physical data storage, space compression. At the same time, users are increasingly concerned about pr</p><p> Key wor
5、ds: Cloud computing; Cloud storage; SkyDrive cloud; Solutions</p><p> 隨著時(shí)代的發(fā)展和科技的不斷進(jìn)步,最近十年中,全球文件資源總量呈現(xiàn)爆發(fā)式的增長(zhǎng)。為了解決海量用戶(hù)文件的存儲(chǔ)問(wèn)題,云存儲(chǔ)技術(shù)應(yīng)運(yùn)而生。云存儲(chǔ)是與云計(jì)算同時(shí)興起的一個(gè)概念,同時(shí)云存儲(chǔ)也是云計(jì)算所不可或缺的一個(gè)部分。隨著云計(jì)算技術(shù)的蓬勃發(fā)展,云存儲(chǔ)技術(shù)也得到了深入的研究與廣泛的應(yīng)
6、用。作為云計(jì)算的一個(gè)基礎(chǔ)部分,在線云存儲(chǔ)[1,2]提供了數(shù)據(jù)存儲(chǔ)的服務(wù),用戶(hù)不需要建立自己的數(shù)據(jù)中心,處理備份、CDN(Content Delivery Network,即內(nèi)容分發(fā)網(wǎng)絡(luò))及災(zāi)難恢復(fù)等重要且復(fù)雜的功能,只需要像使用電腦的內(nèi)置硬盤(pán)一樣來(lái)使用在線云存儲(chǔ)。然而在線云存儲(chǔ)同時(shí)也具有一些缺點(diǎn)[3],諸如用戶(hù)無(wú)法確認(rèn)存儲(chǔ)服務(wù)提供商的安全性、存儲(chǔ)服務(wù)提供商的安全性、可靠性和可用性?xún)H取決于服務(wù)提供商等。</p><p&
7、gt; 云存儲(chǔ)的概念一經(jīng)提出,就得到了眾多廠商的支持和關(guān)注,這從當(dāng)前市場(chǎng)上各式各樣的云網(wǎng)盤(pán)就可見(jiàn)一斑。目前較為著名和實(shí)力較強(qiáng)的個(gè)人在線云存儲(chǔ)提供商[4,5]有國(guó)外的Apple iCloud、DropBox、Google Drive、Microsoft OneDrive和Mega等,國(guó)內(nèi)則有百度云、360云盤(pán)、騰訊微云、華為DBank等眾多的網(wǎng)盤(pán)提供商。國(guó)外個(gè)人在線云存儲(chǔ)主要賣(mài)點(diǎn)在于自身的保密性和可靠程度,而國(guó)內(nèi)的各大提供商則致力于宣傳
8、能提供超大的存儲(chǔ)空間、數(shù)據(jù)“秒傳”等一些用戶(hù)體驗(yàn)上的特性。這些功能的技術(shù)實(shí)現(xiàn)方法都將在下文提及。</p><p> 1 在線云存儲(chǔ)的技術(shù)難題及解決方案</p><p> 1.1 基本存儲(chǔ)服務(wù)</p><p> 傳統(tǒng)的情況下,所有的存儲(chǔ)設(shè)備都在主機(jī)/服務(wù)器內(nèi)部,無(wú)法和其他主機(jī)共享。隨著網(wǎng)絡(luò)的發(fā)展,主機(jī)之間可以使用網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)的傳輸,這種架構(gòu)稱(chēng)為以服務(wù)器為中心的存
9、儲(chǔ)架構(gòu),在這種架構(gòu)中,每個(gè)服務(wù)器都有自己的存儲(chǔ)設(shè)備。對(duì)某個(gè)服務(wù)器的維護(hù)或某個(gè)服務(wù)器出現(xiàn)故障都會(huì)導(dǎo)致信息的無(wú)法訪問(wèn),從而產(chǎn)生了信息的難于保護(hù)、不易管理、信息孤島以及維護(hù)開(kāi)銷(xiāo)大等問(wèn)題。</p><p> 為了解決這些問(wèn)題,便產(chǎn)生了一種新的架構(gòu),稱(chēng)為以信息為中心的架構(gòu)。在這種架構(gòu)下,存儲(chǔ)設(shè)備集中管理,不再依附于服務(wù)器。多個(gè)服務(wù)器之間可以共享存儲(chǔ)設(shè)備。在部署新的服務(wù)器時(shí),從共享存儲(chǔ)設(shè)備中為它分配存儲(chǔ)。共享存儲(chǔ)的容量可以
10、通過(guò)添加新設(shè)備的方式動(dòng)態(tài)的增加而不影響信息的可用性。這種架構(gòu)讓信息的管理變得更加簡(jiǎn)單并擁有更好的成本效益。</p><p> 在這種架構(gòu)下最典型的便是NAS(Network Attached Storage:網(wǎng)絡(luò)附屬存儲(chǔ)),如圖1所示。NAS[6]是專(zhuān)用的高性能文件共享和存儲(chǔ)設(shè)備,它是企業(yè)文件服務(wù)器的一種解決方式,也就是以信息為中心的架構(gòu)中存儲(chǔ)信息的部分。NAS設(shè)備使用自帶的操作系統(tǒng)和集成軟件、硬件組件,滿足特
11、定的文件服務(wù)需求。NAS對(duì)文件I/O進(jìn)行了特定的優(yōu)化,在傳輸速度上優(yōu)秀于各類(lèi)的通用文件服務(wù)器。同時(shí),當(dāng)今的NAS甚至還支持文件級(jí)虛擬化,消除了文件數(shù)據(jù)和物理存儲(chǔ)之間的依賴(lài)關(guān)系,即使當(dāng)文件在物理介質(zhì)中進(jìn)行移動(dòng)時(shí)也能實(shí)現(xiàn)不間斷的訪問(wèn)操作。 </p><p> 圖1 網(wǎng)絡(luò)連接存儲(chǔ)架構(gòu) </p><p> 在線云存儲(chǔ)系統(tǒng)中的信息量級(jí)巨大,且同時(shí)會(huì)有多個(gè)用戶(hù)訪問(wèn),并無(wú)時(shí)不刻的需要保護(hù)數(shù)據(jù)可靠性
12、,因此這種以信息為中心的存儲(chǔ)架構(gòu)完全符合在線云存儲(chǔ)的需要。另一方面,云計(jì)算和虛擬化的誕生也使共享資源的集中管理變?yōu)榱丝赡堋?lt;/p><p> 1.2 獨(dú)立冗余磁盤(pán)陣列</p><p> 當(dāng)今物理存儲(chǔ)器的價(jià)格已經(jīng)非常低廉,熱衷于科技和下載的人很容易擁有6塊每塊2TB大小的存儲(chǔ)器,而在數(shù)據(jù)中心中,動(dòng)輒就會(huì)有幾萬(wàn)甚至幾十萬(wàn)塊的物理存儲(chǔ)器。雖然單塊物理存儲(chǔ)器故障的概率很小,但當(dāng)大量的物理存儲(chǔ)器
13、同時(shí)運(yùn)作時(shí),使用簡(jiǎn)單的概率論知識(shí)就能知道,其不出現(xiàn)任何故障幾乎是不可能的。舉例來(lái)說(shuō),某種年故障率為0.01%的硬盤(pán),其正常工作一年的概率為99.99%,當(dāng)某一數(shù)據(jù)中心中保有10000塊,則在一年中不出現(xiàn)任何故障的概率為</p><p><b> (1)</b></p><p> 機(jī)械磨損、機(jī)械損傷都是硬盤(pán)驅(qū)動(dòng)器發(fā)生故障的原因,這是無(wú)法避免的。并且隨著磁盤(pán)數(shù)量的增加
14、,整體故障的概率將會(huì)越來(lái)越大。由此可見(jiàn),出現(xiàn)故障是家常便飯,因此我們需要一些方法來(lái)防止硬盤(pán)驅(qū)動(dòng)器的故障導(dǎo)致的數(shù)據(jù)丟失。</p><p> 1987年,美國(guó)加州大學(xué)伯克利分校的Patterson、Gibson和Katz等人發(fā)表了一篇名為《冗余磁盤(pán)陣列(RAID)的一個(gè)示例》的論文,第一次提出了RAID相關(guān)的概念。RAID技術(shù)[7,8]將多塊磁盤(pán)形成一個(gè)整體,使之能夠在硬盤(pán)故障的時(shí)候提供數(shù)據(jù)保護(hù)的技術(shù)。同時(shí),RAI
15、D技術(shù)也能提高存儲(chǔ)系統(tǒng)的性能,因?yàn)槎鄩K硬盤(pán)驅(qū)動(dòng)器可以同時(shí)進(jìn)行I/O的服務(wù)。目前較為常見(jiàn)的RAID等級(jí)如下表1所示。其中RAID-3、RAID-4在技術(shù)上與RAID-5非常類(lèi)似,因此現(xiàn)在已經(jīng)不是很常見(jiàn)。</p><p> 表1 RAID級(jí)別簡(jiǎn)介</p><p> RAID技術(shù)在在線云存儲(chǔ)中有很好的應(yīng)用,保證了數(shù)據(jù)的一定意義上的穩(wěn)定性。通過(guò)使用分條的技術(shù),不同的RAID級(jí)別有不同的應(yīng)用場(chǎng)
16、景,其開(kāi)銷(xiāo)、讀寫(xiě)性能也有所不同,在網(wǎng)上能搜到很多相關(guān)的資料,此處就不再一一贅述。唯一需要提及一點(diǎn)的是RAID技術(shù)的出現(xiàn),使我們能夠接受短時(shí)間內(nèi)少量硬盤(pán)的故障,同時(shí)能通過(guò)熱備磁盤(pán)進(jìn)行自動(dòng)的修復(fù),也就實(shí)現(xiàn)了管理人員只需要坐在椅子上看著屏幕,哪里亮起了紅點(diǎn),就過(guò)去更換一塊磁盤(pán)驅(qū)動(dòng)器的美好愿景。</p><p> 在線云存儲(chǔ)系統(tǒng)中的信息量級(jí)巨大,且同時(shí)會(huì)有多個(gè)用戶(hù)訪問(wèn),并無(wú)時(shí)不刻的需要保護(hù)數(shù)據(jù)可靠性,因此這種以信息為中
17、心的存儲(chǔ)架構(gòu)完全符合在線云存儲(chǔ)的需要。另一方面,云計(jì)算和虛擬化的誕生也使共享資源的集中管理變?yōu)榱丝赡堋?lt;/p><p> 1.3 負(fù)載均衡和內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)</p><p> 百度網(wǎng)盤(pán)[4]上有許多文件和眾多的用戶(hù),所以百度不可能只有一個(gè)服務(wù)器,否則眾多用戶(hù)同時(shí)訪問(wèn)就會(huì)導(dǎo)致百度網(wǎng)盤(pán)崩潰了。因此在實(shí)現(xiàn)在線云存儲(chǔ)的過(guò)程中必須部署多臺(tái)服務(wù)器,因此我們必須考慮負(fù)載均衡以將請(qǐng)求分配到各臺(tái)服
18、務(wù)器。</p><p> 最早的云存儲(chǔ)的負(fù)載均衡[9]是利用本地的DNS實(shí)現(xiàn)的,為同一個(gè)主機(jī)名分配好幾個(gè)映射,采用基本的調(diào)度算法,如輪詢(xún)、隨機(jī)分配的方式來(lái)分配請(qǐng)求。這種方式目前仍然被用在很多中小網(wǎng)站上,如Bilibili視頻網(wǎng)站(因?yàn)樗诒罎⑿畔⑸蠈?xiě)明是通過(guò)哪個(gè)DNS服務(wù)器定向到哪個(gè)服務(wù)器),但其也有一個(gè)很大的缺點(diǎn),就是無(wú)法實(shí)現(xiàn)各個(gè)服務(wù)器的動(dòng)態(tài)監(jiān)測(cè)。如果其中一臺(tái)服務(wù)器宕機(jī),DNS服務(wù)器是無(wú)法及時(shí)的發(fā)現(xiàn),從而導(dǎo)致
19、被分配到該服務(wù)器的用戶(hù)出現(xiàn)訪問(wèn)失敗的情況。同時(shí),通過(guò)DNS進(jìn)行負(fù)載均衡也不能即時(shí)的判斷每個(gè)服務(wù)器的負(fù)載,如果調(diào)度算法不夠完善,就可能會(huì)出現(xiàn)某個(gè)服務(wù)器幾乎閑置而另一個(gè)服務(wù)器負(fù)載壓力極高的情況。</p><p> 目前最流行的的負(fù)載均衡是采用反向代理。反向代理與正向代理類(lèi)似,我們使用代理來(lái)訪問(wèn)“某些不能直接訪問(wèn)的網(wǎng)站”,這樣防火墻就無(wú)法鑒別我們究竟在訪問(wèn)什么網(wǎng)站,以達(dá)到間接訪問(wèn)的目的。而反向代理也類(lèi)似,我們?cè)谠L問(wèn)一
20、個(gè)部署了反向代理的網(wǎng)站時(shí),訪問(wèn)的并不是正在的服務(wù)器,而是反向代理服務(wù)器。當(dāng)請(qǐng)求到達(dá)反向代理服務(wù)器時(shí),反向代理再講請(qǐng)求轉(zhuǎn)發(fā)至服務(wù)器。目前通常的反向代理服務(wù)器都是以Nginx等服務(wù)器搭建,因?yàn)槠渚哂斜姸嗟姆峙洳呗砸员WC平均分配訪問(wèn)的請(qǐng)求。反向代理其實(shí)類(lèi)似于動(dòng)態(tài)的DNS服務(wù),但它可以做到DNS所無(wú)法做到的動(dòng)態(tài)監(jiān)測(cè)功能。</p><p> 同時(shí),由于個(gè)人在線云存儲(chǔ)往往被用戶(hù)用來(lái)存儲(chǔ)各種非結(jié)構(gòu)化的大型數(shù)據(jù),如電影、視頻、
21、照片等,而且當(dāng)前主流的“網(wǎng)盤(pán)”都實(shí)現(xiàn)了各種在線預(yù)覽的功能。如果在幾年前,在線觀看視頻一直在緩沖、預(yù)覽照片一直顯示紅叉,我們也不會(huì)怎么在意,但是在現(xiàn)在,我們一定會(huì)覺(jué)得這個(gè)網(wǎng)盤(pán)做的很渣,從而放棄使用,為了解決這個(gè)問(wèn)題,就有了內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)。</p><p> 簡(jiǎn)單的來(lái)說(shuō)CDN就是存儲(chǔ)一些靜態(tài)文件的一臺(tái)或多臺(tái)服務(wù)器,通過(guò)復(fù)制、緩存等方式,將文件保存其中。由于在線云存儲(chǔ)中的文件通常都可以歸為靜態(tài)數(shù)據(jù)的范疇,因此
22、CDN的使用可謂是非常的對(duì)癥下藥。在沒(méi)有CDN的年代,所有的數(shù)據(jù)都從主服務(wù)器中獲取,如果服務(wù)器在北京,而我們?cè)趶V州進(jìn)行訪問(wèn),由于傳輸距離、運(yùn)營(yíng)商、高并發(fā)等因素,訪問(wèn)的速度就會(huì)變慢。而使用了CDN服務(wù)后,將CDN服務(wù)器部署在各個(gè)不同的地理位置,并且CDN服務(wù)器會(huì)在用戶(hù)第一次請(qǐng)求后緩存文件,或者是主動(dòng)的從主服務(wù)器請(qǐng)求數(shù)據(jù)并進(jìn)行緩存。從而當(dāng)用戶(hù)發(fā)送請(qǐng)求請(qǐng)求到達(dá)服務(wù)器時(shí),服務(wù)器通過(guò)IP、運(yùn)營(yíng)商等信息來(lái)判斷用戶(hù)的地理位置,并分配離用戶(hù)最近的CND
23、服務(wù)器,以加快加載靜態(tài)數(shù)據(jù)的速度。</p><p><b> 1.4 災(zāi)難恢復(fù)</b></p><p> 如果RAID技術(shù)在一定程度上能保證數(shù)據(jù)的安全性,那當(dāng)數(shù)據(jù)中心發(fā)生地震、洪水或大規(guī)模斷電的時(shí)候,RAID技術(shù)也就無(wú)能為力了。為了應(yīng)對(duì)這種災(zāi)難性的毀滅,必須要采取相應(yīng)的對(duì)策以保護(hù)數(shù)據(jù)的安全性。備份是最主要的應(yīng)對(duì)災(zāi)難恢復(fù)的需求。當(dāng)主位置因?yàn)?zāi)難而不能工作的時(shí)候,備份的
24、副本將用于在第二地點(diǎn)恢復(fù)數(shù)據(jù)。針對(duì)不同的信息可用性的要求,有不同的備份方案。早期人們使用磁帶備份的方式,備份磁帶介質(zhì)被運(yùn)往異地保存。然而這種方法有著較長(zhǎng)的恢復(fù)點(diǎn),這會(huì)造成災(zāi)難發(fā)生前一段時(shí)間的數(shù)據(jù)丟失,也就會(huì)造成“回檔”。在各類(lèi)電子游戲中,“回檔”是最受玩家們深痛惡覺(jué)的事情,在在線云存儲(chǔ)中亦然。用戶(hù)可能把非常重要的數(shù)據(jù)修改后存放于“網(wǎng)盤(pán)”中,因此不能接受數(shù)據(jù)的丟失。目前采用的往往是遠(yuǎn)程復(fù)制技術(shù)來(lái)實(shí)時(shí)的將數(shù)據(jù)復(fù)制到災(zāi)難恢復(fù)位置,使得在遇到災(zāi)
25、難時(shí)能以相對(duì)較短的時(shí)間恢復(fù)生產(chǎn)系統(tǒng)。</p><p> 遠(yuǎn)程復(fù)制[10]分為同步模式和異步模式,并有基于主機(jī)的復(fù)制、基于陣列的遠(yuǎn)程復(fù)制、基于網(wǎng)絡(luò)的遠(yuǎn)程復(fù)制等多種技術(shù),讀者可以自行查找相關(guān)資料以了解詳細(xì)信息。同時(shí)由于在線云存儲(chǔ)是基于云計(jì)算的服務(wù),當(dāng)災(zāi)難發(fā)生時(shí),由于有多個(gè)CDN站點(diǎn)及多個(gè)備份服務(wù)器,用戶(hù)甚至無(wú)法感知到災(zāi)難的發(fā)生,僅會(huì)感覺(jué)到下載或鏈接的速度變慢了而已。</p><p> 2
26、細(xì)節(jié)部分的技術(shù)實(shí)現(xiàn)</p><p> 2.1 數(shù)據(jù)去重、“秒傳”和具有中國(guó)特色的內(nèi)容審查</p><p> 以“百度云”為例,現(xiàn)在只要用戶(hù)使用手機(jī)端、Pad端進(jìn)行登錄,就能獲得總計(jì)2048GB的免費(fèi)空間。而當(dāng)前2TB的硬盤(pán)價(jià)格大約為500-2000元左右,這還不計(jì)算備份、RAID的成本,“百度云”真的那么好心為每一個(gè)用戶(hù)都準(zhǔn)備了這么大的個(gè)人空間?答案必然是否定的。其實(shí)對(duì)于互聯(lián)網(wǎng)上的數(shù)據(jù)
27、,很多都是重復(fù)的。每個(gè)用戶(hù)各自不同的文檔數(shù)據(jù),諸如名片、Word、PPT等的體積都很小,而占據(jù)了我們硬盤(pán)大多數(shù)空間的視頻、電影、音樂(lè)等其實(shí)在別人的硬盤(pán)上也是同樣的數(shù)據(jù)。因此可以采用類(lèi)似于C語(yǔ)言中的指針的設(shè)計(jì)方式,每一個(gè)文件都只保存一個(gè)副本,使用多個(gè)鏈接指向這個(gè)副本。你保存了這個(gè)2GB的電影、我保存了這個(gè)2GB的電影,其實(shí)在“百度云”上只保存了一份這個(gè)電影和兩個(gè)鏈接而已。</p><p> 那應(yīng)該如何判斷用戶(hù)上傳
28、的是不是同一個(gè)文件呢?筆者認(rèn)為應(yīng)該是采用摘要的方式,目前流行的摘要算法有MD系列和SHA系列,通過(guò)計(jì)算出的散列值是否相同來(lái)判斷兩個(gè)文件是否為同一個(gè)。然而這會(huì)遇到一個(gè)問(wèn)題,便是當(dāng)用戶(hù)修改了文件名之后還應(yīng)該算是原來(lái)的文件。本人就喜歡在下載完電影后按照本人的命名規(guī)則對(duì)文件進(jìn)行重新命名和分類(lèi)存儲(chǔ)。本人認(rèn)為解決改名問(wèn)題的方法有將文件名都改為一個(gè)統(tǒng)一的名字再求散列值,或?qū)ξ募暮蟀氩糠诌M(jìn)行散列計(jì)算并比較文件大小以判斷是否同一個(gè)文件。</p&g
29、t;<p> 這個(gè)計(jì)算散列的過(guò)程可以在本地進(jìn)行,當(dāng)服務(wù)器發(fā)現(xiàn)用戶(hù)上傳的文件在服務(wù)器中已經(jīng)存在之后,所需要做的就只是在用戶(hù)的在線云存儲(chǔ)中建立一個(gè)到該文件的鏈接而已,從而省去了最耗時(shí)的上傳步驟,因此就造成了一種“秒傳”的現(xiàn)象。這也就能解釋為什么再上傳監(jiān)控視頻時(shí)需要大量的時(shí)間而上傳一部電影就一下子上傳完成的情況。</p><p> 同時(shí),只保存一份副本的設(shè)計(jì)方式也能用于進(jìn)行內(nèi)容審查。當(dāng)服務(wù)器檢測(cè)到某些
30、違法違規(guī)的內(nèi)容時(shí),只需要移除這份副本并刪除所有鏈接即可。即使用戶(hù)通過(guò)修改文件名、修改后綴名等操作也無(wú)法隱藏這些違法文件。現(xiàn)在的服務(wù)器都能做到自動(dòng)化的檢查壓縮文件的內(nèi)容,如Google就不允許用戶(hù)發(fā)送可執(zhí)行文件,即使是被壓縮過(guò)的文件,因此就算把違法文件藏在壓縮包中也是不可行的。</p><p><b> 2.2 加密存儲(chǔ)</b></p><p> 雖然用戶(hù)仍會(huì)為了一
31、些小獎(jiǎng)品不惜在各種不靠譜的表格上填上自己的個(gè)人隱私信息,但是對(duì)于在線云存儲(chǔ)這種提供“直白的”服務(wù)時(shí),用戶(hù)往往會(huì)要求保護(hù)自己的隱私!因此在國(guó)內(nèi)常見(jiàn)的“網(wǎng)盤(pán)”中,都提供了類(lèi)似于“保險(xiǎn)箱”等名字的加密存儲(chǔ)服務(wù)。在“百度云”的介紹頁(yè)面上寫(xiě)道“百度云保險(xiǎn)箱不僅需要用戶(hù)驗(yàn)證自己的身份并需要提供額外的保險(xiǎn)箱密碼后才可以進(jìn)行訪問(wèn),無(wú)法進(jìn)行分享,為您提供最安全和優(yōu)質(zhì)的文件保存服務(wù)?!奔用艿谋举|(zhì)其實(shí)很簡(jiǎn)單,即將用戶(hù)的個(gè)人秘鑰與數(shù)據(jù)進(jìn)行混合,儲(chǔ)存混合后的結(jié)果
32、,只有知道了用戶(hù)的秘鑰后才能將數(shù)據(jù)解密。</p><p> 這種方式看上去是很安全的,然而其理念卻與上一小節(jié)所講的不同副本、同一本體相矛盾,運(yùn)營(yíng)商會(huì)如何取舍便是他們自己的考量了。也許你放在保險(xiǎn)箱里的文件,在別的用戶(hù)的“網(wǎng)盤(pán)”中就能輕易的訪問(wèn)到,“保險(xiǎn)箱”功能[11]也許只是一層紙箱子而已。當(dāng)然,具體采用的策略都是運(yùn)營(yíng)商進(jìn)行選擇的,我們存在“百度云保險(xiǎn)箱”里面的文件到底有沒(méi)有加密、有沒(méi)有進(jìn)行安全的存儲(chǔ),那只有“百
33、度云”自己知道了。</p><p> 2.3 區(qū)別對(duì)待不同數(shù)據(jù)</p><p> 在理想情況下,我們使用的所有的硬盤(pán)都是最好的,速度都是最快的,用戶(hù)們的所有數(shù)據(jù)都能飛速的讀取和下載,大家感覺(jué)都非常好。然而,在線云存儲(chǔ)從根本上來(lái)說(shuō)是商業(yè)上的應(yīng)用,不同的數(shù)據(jù)具有不同的商業(yè)價(jià)值,將所有的數(shù)據(jù)都進(jìn)行同等的最優(yōu)對(duì)待在成本上都是不被允許的。對(duì)于數(shù)據(jù)價(jià)值[12]很大的數(shù)據(jù)應(yīng)該提供最好的磁盤(pán)驅(qū)動(dòng)器和最
34、快的訪問(wèn)速度,而對(duì)于價(jià)值較小的數(shù)據(jù)可能只提供最基本的服務(wù)。這應(yīng)該說(shuō)是目前主流廠商所采用的方法,舉例來(lái)說(shuō)當(dāng)從“云盤(pán)”下載一部熱門(mén)電影時(shí),速度可能達(dá)到物理帶寬的上限,而當(dāng)我從我的網(wǎng)盤(pán)下載自己的小作文時(shí),速度僅僅為40KB/s。判斷一個(gè)文件的熱門(mén)程度,下載量的多少應(yīng)該可以作為衡量的標(biāo)準(zhǔn)之一。</p><p> 運(yùn)營(yíng)商根據(jù)成本的不同準(zhǔn)備多套速度、性能不同的存儲(chǔ)系統(tǒng),在下文中筆者將用等級(jí)來(lái)將其區(qū)分,等級(jí)越高,質(zhì)量越好。當(dāng)
35、用戶(hù)上傳一個(gè)文件時(shí)、先可以根據(jù)文件名或其他因素進(jìn)行預(yù)判段,若覺(jué)得該文件可能有較大的價(jià)值,則將該文件存放于高等級(jí)存儲(chǔ)中,反之亦然。隨著時(shí)間的推移,下載量會(huì)發(fā)生變化,流行的資源會(huì)變得不再流行,而新的流行資源又會(huì)不斷出現(xiàn),所以應(yīng)定時(shí)的對(duì)數(shù)據(jù)的價(jià)值進(jìn)行重新的判斷,并將其移動(dòng)到等值的存儲(chǔ)服務(wù)器上,而當(dāng)某些數(shù)據(jù)很久都沒(méi)有被訪問(wèn)時(shí),則移動(dòng)到歸檔服務(wù)器保存。同時(shí),當(dāng)高級(jí)存儲(chǔ)器進(jìn)行版本迭代的時(shí)候,淘汰下來(lái)的前高級(jí)存儲(chǔ)器可以降低等級(jí),轉(zhuǎn)而作為低等級(jí)存儲(chǔ)來(lái)使
36、用,以降低營(yíng)業(yè)的成本。</p><p> 3 數(shù)據(jù)去重的測(cè)試與性能評(píng)價(jià)</p><p> 本文中基于FastDFS文件服務(wù)器開(kāi)發(fā)了云存儲(chǔ)系統(tǒng),采用了數(shù)據(jù)去重和文件秒傳機(jī)制。通過(guò)基于9個(gè)周期的文件數(shù)據(jù)測(cè)試,如圖2所示。</p><p> 圖2 文件去重前后數(shù)據(jù)總量</p><p> 根據(jù)上圖可以得出,隨著時(shí)間的推移,用戶(hù)上傳的數(shù)據(jù)總量的
37、增長(zhǎng)速度遠(yuǎn)高于經(jīng)過(guò)文件去重后的實(shí)際存儲(chǔ)數(shù)據(jù)量的增長(zhǎng)速度,而經(jīng)過(guò)文件去重的實(shí)際存儲(chǔ)數(shù)據(jù)量一直保持較低的增長(zhǎng)速度??梢?jiàn)預(yù)見(jiàn)的是,文件去重技術(shù)的應(yīng)用,可以極大的緩解文件服務(wù)器的壓力,能夠帶來(lái)較為可觀的經(jīng)濟(jì)效益。另外,本文中也對(duì)上述測(cè)試結(jié)果的去重率進(jìn)行了分析,記用戶(hù)上傳文件數(shù)據(jù)總量為T(mén),實(shí)際存儲(chǔ)數(shù)據(jù)量為R,去重率的計(jì)算公式如下:</p><p><b> (2) </b></p>&
38、lt;p> 根據(jù)公式2以及文件去重前后數(shù)據(jù)總量的測(cè)試結(jié)果,繪制了相應(yīng)的文件去重率的折線圖。研究隨著文件數(shù)據(jù)量的增長(zhǎng),去重率的變化情況如圖 3 所示:</p><p><b> 圖3 系統(tǒng)去重率</b></p><p> 由圖3可知:前兩個(gè)星期由于文件庫(kù)中的文件較少,系統(tǒng)的去重率很低,不足3%。但是隨著時(shí)間的推移,用戶(hù)上傳文件的增長(zhǎng),系統(tǒng)的文件去重率也隨之增
39、加,最后一個(gè)星期的時(shí)候,系統(tǒng)的去重率已經(jīng)可以達(dá)到很可觀的43%??梢灶A(yù)測(cè)的是,隨著用戶(hù)上傳的文件數(shù)據(jù)總量的進(jìn)一步增加,文件去重的效果會(huì)越來(lái)越明顯。</p><p> 由于存儲(chǔ)容量增長(zhǎng),云存儲(chǔ)成本增加。參考阿里云的存儲(chǔ)空間的計(jì)價(jià)標(biāo)準(zhǔn),在本文測(cè)試的存儲(chǔ)容量范圍內(nèi)用戶(hù)每年需要最多需支付244元的基本存儲(chǔ)費(fèi)用,而經(jīng)過(guò)去重的實(shí)際存儲(chǔ)成本只有145元。圖中經(jīng)過(guò)去重后的云存儲(chǔ)成本增長(zhǎng)的速度遠(yuǎn)小于未經(jīng)去重的存儲(chǔ)成本,當(dāng)存儲(chǔ)容量
40、持續(xù)增長(zhǎng)去重前后的成本差距將會(huì)越來(lái)越大。</p><p> 本節(jié)主要對(duì)云存儲(chǔ)系統(tǒng)的文件去重方面進(jìn)行了測(cè)試和性能評(píng)價(jià)。在盡量去除干擾因素的前提下,采用了較大規(guī)模的文件數(shù)據(jù)作為數(shù)據(jù)集進(jìn)行數(shù)據(jù)去重功能的效果分析。最后,通過(guò)結(jié)合阿里云的計(jì)價(jià)標(biāo)準(zhǔn)計(jì)算了采用該策略前后系統(tǒng)的存儲(chǔ)變化以及成本變化情況。測(cè)試結(jié)果表明在較大規(guī)模數(shù)據(jù)量的情況下,采用本策略能夠較為有效的節(jié)省存儲(chǔ)成本。因此通過(guò)本測(cè)試,可以得出本策略在文件具有相關(guān)性的情
41、況下,針對(duì)大規(guī)模數(shù)據(jù)存儲(chǔ),能夠獲得比較好的性能,對(duì)用戶(hù)云存儲(chǔ)開(kāi)支有了很大的節(jié)省。</p><p> 4 在線云存儲(chǔ)的未來(lái)發(fā)展方向和盈利模式</p><p> 在1 2年前,國(guó)內(nèi)各大個(gè)人在線云存儲(chǔ)所采用的盈利模式主要是提升空間,提升15g,半年30元,提升50g,半年90元;比購(gòu)買(mǎi)一個(gè)硬盤(pán)還貴,用戶(hù)消費(fèi)的動(dòng)力僅僅在于保存在云存儲(chǔ)上的數(shù)據(jù)不會(huì)像傳統(tǒng)硬盤(pán)那樣很容易就發(fā)生損壞。</p&g
42、t;<p> 目前這種傳統(tǒng)的盈利方式已經(jīng)開(kāi)始逐漸的沒(méi)落了,各類(lèi)”網(wǎng)盤(pán)”動(dòng)輒3 ~ 4T的免費(fèi)空間對(duì)于普通的用戶(hù)來(lái)說(shuō)完全綽綽有余。因此各提供商必須想出其他的盈利模式[13-15],觀察了現(xiàn)有的各大云盤(pán)所采用的收費(fèi)手段,本人認(rèn)為當(dāng)前的盈利模式主要向兩個(gè)方向發(fā)展:速率和C2C。</p><p> 首先來(lái)說(shuō)速率,速率收費(fèi)在傳統(tǒng)下載行業(yè)可謂是最常見(jiàn)的。目前一線城市的下行網(wǎng)速普遍已經(jīng)超過(guò)了10M甚至達(dá)到了1
43、00M,而過(guò)去直接從服務(wù)器點(diǎn)對(duì)點(diǎn)下載的速度已經(jīng)無(wú)法達(dá)到物理帶寬的上限。因此可以通過(guò)收費(fèi)的方式讓用戶(hù)借助自身的CDN節(jié)點(diǎn)緩存進(jìn)行更快速度的下載。但由于各類(lèi)在線云存儲(chǔ)推廣的初期,很多云服務(wù)提供商都將這項(xiàng)服務(wù)免費(fèi)的提供給了用戶(hù),而現(xiàn)在說(shuō)要收費(fèi)的話,可能會(huì)造成用戶(hù)的不滿和流失。</p><p> C2C模式[16],即用戶(hù)對(duì)用戶(hù),最顯著的例子可謂是“百度文庫(kù)”這一個(gè)應(yīng)用。通過(guò)上傳文件,用戶(hù)可以得到被稱(chēng)作下載分的積分,而
44、當(dāng)用戶(hù)需要進(jìn)行下載的時(shí)候,則需要支付下載分來(lái)進(jìn)行下載。對(duì)于那些不愿意上傳自己資源的用戶(hù)也有相應(yīng)的解決方案,那就是付錢(qián)。通過(guò)這種模式付費(fèi)的用戶(hù)完全不會(huì)有怨言,因?yàn)橐呀?jīng)提供了免費(fèi)下載的方式,只是自己不想那么做而已,所以這個(gè)錢(qián)交的心甘情愿。</p><p> 其他的盈利模式可能是通過(guò)提供一些額外的基于提供在線文本編輯、在線播放視頻等并不屬于傳統(tǒng)存儲(chǔ)服務(wù)的功能,此處就不在贅述了。</p><p>
45、; 本人認(rèn)為在個(gè)人線云存儲(chǔ)發(fā)展的方向會(huì)更傾向于C2C和更優(yōu)質(zhì)的服務(wù)模式[17],諸如流暢的在線預(yù)覽功能和強(qiáng)大的在線編輯功能,同時(shí)提供更加優(yōu)秀的搜索、資源推薦等功能,并向社交網(wǎng)絡(luò)的方向進(jìn)行發(fā)展,成為一整套的生態(tài)系統(tǒng)[18]而不再是文件存儲(chǔ)這樣單一的一項(xiàng)基礎(chǔ)服務(wù)。</p><p><b> 參考文獻(xiàn):</b></p><p> 李曉松. Dropbox:怎樣平步“云
46、端”?[J]. 中外管理, 2014, 01:28-29.</p><p> 本報(bào)記者湯潯芳. 對(duì)標(biāo)Dropbox云存儲(chǔ)中國(guó)酣戰(zhàn)[N]. 21世紀(jì)經(jīng)濟(jì)報(bào)道, 2012-02-27026.</p><p> 戴元順. 云計(jì)算技術(shù)簡(jiǎn)述[J]. 信息通信技術(shù), 2010, 02:29-35.</p><p> 李新宇. 網(wǎng)絡(luò)云盤(pán)介紹——以360云盤(pán)和百度云為例[J]
47、. 無(wú)線互聯(lián)科技, 2014,01:38.</p><p> 國(guó)內(nèi)個(gè)人云存儲(chǔ)應(yīng)用風(fēng)生水起[J]. 通訊世界, 2012, 08:46-47.</p><p> 張楊. 一種個(gè)人云存儲(chǔ)服務(wù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].電子科技大學(xué), 2012.</p><p> 陳華英. 磁盤(pán)陣列RAID可靠性分析[J]. 電子科技大學(xué)學(xué)報(bào), 2006, 03:403-405.<
48、;/p><p> 曹陽(yáng). RAID技術(shù)實(shí)現(xiàn)及發(fā)展[J]. 電腦學(xué)習(xí), 2006, 04:43-44+60.</p><p> 拓守恒. 云計(jì)算與云數(shù)據(jù)存儲(chǔ)技術(shù)研究[J]. 電腦開(kāi)發(fā)與應(yīng)用, 2010, 09:1-3+9.</p><p> 李凌. 云計(jì)算服務(wù)中數(shù)據(jù)安全的若干問(wèn)題研究[D]. 中國(guó)科學(xué)技術(shù)大學(xué), 2013.</p><p>
49、 王德政, 申山宏, 周寧寧. 云計(jì)算環(huán)境下的數(shù)據(jù)存儲(chǔ)[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2011, 04:81-84+89.</p><p> 唐箭. 云存儲(chǔ)系統(tǒng)的分析與應(yīng)用研究[J]. 電腦知識(shí)與技術(shù), 2009, 20:5337-5338+5340.</p><p> 賀博,王欣. 個(gè)人云存儲(chǔ)市場(chǎng)發(fā)展?fàn)顩r分析[J]. 現(xiàn)代電信科技, 2012, 08:11-14+19.</p&g
50、t;<p> 周可,王樺,李春花. 云存儲(chǔ)技術(shù)及其應(yīng)用[J]. 中興通訊技術(shù), 2010, 04:24-27.</p><p> 王佳雋, 呂智慧, 吳杰, 鐘亦平. 云計(jì)算技術(shù)發(fā)展分析及其應(yīng)用探討[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2010, 20:4404-4409.</p><p> 劉貝, 湯斌. 云存儲(chǔ)原理及發(fā)展趨勢(shì)[J]. 科技信息, 2011, 05:470-4
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向點(diǎn)云采集的多視圖像匹配技術(shù)研究——碩士論文
- 加工中心在線檢測(cè)實(shí)物編程技術(shù)研究---碩士論文
- 云計(jì)算環(huán)境下任務(wù)調(diào)度算法的研究碩士論文
- 基于示教的加工中心在線檢測(cè)研究---碩士論文
- 個(gè)人健康信息存儲(chǔ)與傳輸系統(tǒng)設(shè)計(jì)碩士論文
- 基于示教的加工中心在線檢測(cè)研究---碩士論文
- 相變存儲(chǔ)器單元高速擦寫(xiě)測(cè)試方法研究碩士論文
- 基于云計(jì)算的存儲(chǔ)技術(shù)研究_云存儲(chǔ)
- 云存儲(chǔ)技術(shù)的比較研究--畢業(yè)論文
- 原油調(diào)合技術(shù)的研究與應(yīng)用碩士論文
- 基于云計(jì)算的物聯(lián)網(wǎng)運(yùn)營(yíng)管理平臺(tái)研究_徐琳瑩碩士論文
- 基于工業(yè)機(jī)器人玻璃在線堆垛系統(tǒng)的研究-碩士論文
- 基于計(jì)算機(jī)視覺(jué)的刀具狀態(tài)在線監(jiān)控研究---碩士論文
- 數(shù)控誤差補(bǔ)償新技術(shù)研究---碩士論文
- 加工中心在線檢測(cè)路徑規(guī)劃模型及仿真研究---碩士論文
- 碩士論文評(píng)語(yǔ)模板
- 碩士論文格式
- 績(jī)效管理碩士論文
- mysql數(shù)據(jù)庫(kù)源代碼分析及存儲(chǔ)引擎的設(shè)計(jì)碩士論文
- 核酸的檢測(cè)技術(shù)及相關(guān)標(biāo)準(zhǔn)物質(zhì)研究碩士論文
評(píng)論
0/150
提交評(píng)論