第5屆超大數(shù)據(jù)庫會議(xldb2011)大會報告(中文版)_第1頁
已閱讀1頁,還剩8頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、第 5 屆超大數(shù)據(jù)庫會議(XLDB2011)大會報告(中文版) 廈門大學(xué)計算機科學(xué)系教師林子雨翻譯 http://www.cs.xmu.edu.cn/linziyu 第 1 頁/共 9 頁 第 5 屆超大數(shù)據(jù)庫會議 ( 屆超大數(shù)據(jù)庫會議 (XLDB2011)大會報告(中文版) 大會報告(中文版) REPORT FROM THE 5th WORKSHOP ON EXTREMELY LARGE DATABASES Jacek Becla1

2、*, Daniel Liwei Wang2, Kian-Tat Lim3 SLAC National Accelerator Laboratory, Menlo Park, CA 94025, USA *1 Email: becla@slac.stanford.edu 2 Email: danielw@slac.stanford.edu 3 Email: ktl@slac.stanford.edu 溫馨提示: 本文由廈門大學(xué)計算機系

3、林子雨老師翻譯自 XLDB 會議網(wǎng)站的英文報告, 轉(zhuǎn)載請注明出處,僅用于學(xué)習(xí)交流,請勿用于商業(yè)用途。 [本文翻譯的原始出處:廈門大學(xué)計算機系數(shù)據(jù)庫實驗室網(wǎng)站林子雨老師的超大數(shù)據(jù)庫技術(shù)資料專區(qū) http://dblab.xmu.edu.cn/XLDB] 翻譯者林子雨個人主頁:http://www.cs.xmu.edu.cn/linziyu 1 大會總結(jié) 大會總結(jié) 第 5 屆 XLDB 大會(XLDB2011) ,主要關(guān)注醫(yī)療和基因?qū)W領(lǐng)域

4、所面臨的挑戰(zhàn),基于電子表格的大規(guī)模分析,以及大規(guī)模應(yīng)用統(tǒng)計信息和機器學(xué)習(xí)所面臨的挑戰(zhàn)。 XLDB2011 明確了在醫(yī)療和基因?qū)W領(lǐng)域的相關(guān)問題。 一些問題是比較普遍的, 比如一些軟件、數(shù)據(jù)格式和使用模型,在概念上都是相同的,可是無法兼容。使用習(xí)慣并沒有明顯的趨同性, 因為用戶通常拒絕接受變化。 在這個數(shù)據(jù)極大豐富的世界,一些分析者還是采用處理數(shù)據(jù)稀少情形所采用的思維,雖然, 已經(jīng)有部分人開始意識到這個問題。 新機器和新技術(shù)(DNA 序列和

5、醫(yī)療圖像)所產(chǎn)生的數(shù)據(jù),正在迅速增長,這讓分析人員猝不及防,但是,同時,這也讓我們發(fā)現(xiàn)了具備高可擴展能力的工具的缺失,并讓我們意識到需要更加強大、擴展性更好的數(shù)據(jù)管理。 在 XLDB 會議中,電子表格被放在大數(shù)據(jù)的背景下進行討論,這也正好延續(xù)了上一屆會議的討論興趣。就單個電子表格而言,通常都很小,但是,它非常普及,數(shù)量非常龐大,無處不在,這就讓它成為了一個需要關(guān)注的大問題。電子表格具有很直觀的接口,因此,它很難被其他產(chǎn)品所取代, 即使它

6、存在著數(shù)據(jù)質(zhì)量的問題。電子表格更像是原始數(shù)據(jù), 沒有質(zhì)量保證機制,比如模式、數(shù)據(jù)類型、一致性和真實性,因此,很難對電子表格進行檢索和維護。沒有嚴(yán)格約束,增加了電子表格的易用性,也減少了在記錄新概念時的沖突。因此,處理電子表格問題的解決方案, 主要關(guān)注把電子表格訪問接口提供給其他技術(shù), 這些技術(shù)對大規(guī)模數(shù)據(jù)集具有很好的適應(yīng)性和可擴展能力,比如 Hadoop 和并行 RDBMS。 基于大規(guī)模數(shù)據(jù)的統(tǒng)計, 仍然是一個有待解決的問題, 雖然現(xiàn)在

7、已經(jīng)有一些方案。統(tǒng)計軟件包本身不具備可擴展性, 可是, 可以在構(gòu)建可擴展的代碼之前用來對算法進行原型實驗。一些與會者注意到, 設(shè)計一個可以綜合考量可用性和可擴展性的軟件, 并不可行;而其他與會者則認(rèn)為很多擴展性問題都是可以解決的。 由于計算代價過高, 一些普通算法很難實現(xiàn)擴展,因此,就需要新的更加聰明的算法,或者是一些近似算法。統(tǒng)計分析人員和技術(shù)人員之間缺少溝通, 也是一個大問題,有時候就會出現(xiàn)一些問題, 比如某個問題可能已經(jīng)存在解決第

8、 5 屆超大數(shù)據(jù)庫會議(XLDB2011)大會報告(中文版) 廈門大學(xué)計算機科學(xué)系教師林子雨翻譯 http://www.cs.xmu.edu.cn/linziyu 第 3 頁/共 9 頁 XLDB2011 大會引入了兩個新領(lǐng)域的用戶群體參加會議,即醫(yī)療和基因?qū)W。其中,兩名代表來自國家衛(wèi)生研究院,一名代表來自 GNS 醫(yī)療機構(gòu)。與會者討論了這些領(lǐng)域的數(shù)據(jù)管理和分析,包括當(dāng)前的實踐、最嚴(yán)峻的問題、尋找解決方案所面臨的障礙,以及他們和比其更大

9、的 XLDB 群體如何能夠取得進展。 數(shù)據(jù)的分片和小規(guī)模的方法 數(shù)據(jù)的分片和小規(guī)模的方法 基因?qū)W和醫(yī)療群體是非常分散的, 對于如何生成和管理數(shù)據(jù), 許多小團體之間都沒有達成共識。這從實用主義的觀點出發(fā),兩個群體都認(rèn)為計算是必須的開銷。但是,他們對于標(biāo)準(zhǔn)化和統(tǒng)一化沒有什么積極性。他們的數(shù)據(jù)生成設(shè)備和數(shù)據(jù)分析方法,各不相同。在語言、定義和方法上很少具有共同的地方,這使得合作變得很困難。例如, 排序機器都具有不同的解決方案、文件格式和接口,有

10、時候,即使是同一個 機器的不同版本,這些內(nèi)容都不相同。由此生成的混亂的數(shù)據(jù),很難用于其它作業(yè),由此也導(dǎo)致了群體之間的隔閡。所幸的是,人們已經(jīng)開始認(rèn)識到數(shù)據(jù)碎片問題的嚴(yán)重性。 一種解決方案是,盡量減少自己開發(fā), 而直接采用供應(yīng)商的現(xiàn)成軟件, 這可能會增加可互操作性。基因?qū)W群體很愿意采用價格不高的商業(yè)軟件和開源軟件。但是,現(xiàn)實情況是,商業(yè)軟件價格不菲,開源軟件根本找不到,還需要時間使其走向成熟。因此,這些群體還是繼續(xù)自己開發(fā)相應(yīng)的解決方案。

11、 之所以采用自己開發(fā)應(yīng)用,還有一個很重要的原因就是,有些需求事先無法準(zhǔn)確知道,當(dāng)這些需求被完全確定的時候,呈現(xiàn)在你面前的就是一個定制的、半生不熟的解決方案。 醫(yī)療行業(yè)會頻繁購買商業(yè)軟件,比如分析軟件, 這導(dǎo)致了極大的開銷, 而且還會存在一些浪費。一些公司同時扮演著用戶和供應(yīng)商的角色,比如 GNS 醫(yī)療機構(gòu),就專注于構(gòu)建和銷售定義化的解決方案。業(yè)界用戶非常重視對開源的商業(yè)支持。 編程語言方面也存在少量“分裂”的問題。這兩個群體都使用 Ja

12、va、R 和不同的腳本語言。SQL 雖然不是很普及,卻也是一種可以被接受的語言。R 是一個統(tǒng)計包,在基因?qū)W領(lǐng)域很普及, 被用到很多項目中, 比如 Bioconductor 就是一個對高吞吐量的基因數(shù)據(jù)進行分析和理解的框架。R 已經(jīng)被廣泛接受,并得到了認(rèn)可,但是,大家都知道它的可擴展性很差。這個群體已經(jīng)習(xí)慣于在 R 的各種限制下進行工作,也知道需要具有更高可擴展性的工具,不過,就是不知道有什么更好的解決方案。 技術(shù)進步帶來的問題 技術(shù)進步

13、帶來的問題 在未來的 1 到 1.5 年時間里,基因?qū)W群體需要解決迫切的、令人絕望的數(shù)據(jù)爆炸問題。數(shù)據(jù)爆炸本身是由技術(shù)進步帶來的。 更好的解決方案和更高的設(shè)備性能 (這些設(shè)備現(xiàn)在要比以前便宜幾個數(shù)量級) ,使得數(shù)據(jù)的增長速度超出了摩爾定律。在本次大會召開的時候,美國國家衛(wèi)生研究院,每年可以產(chǎn)生 1PB 的數(shù)據(jù)。 主要的問題還在于文化和人, 而不是技術(shù)。 生物學(xué)群體很慢才接受把計算作為研究的一個重要部分。生物學(xué)家還不習(xí)慣于把計算和分析開銷

14、也列入預(yù)算。在以前,基因組測序(sequencing)是很昂貴的,它的數(shù)據(jù)很稀少,這意味著存儲和分析數(shù)據(jù)的開銷幾乎可以忽略不計。 但是, 現(xiàn)在的條件發(fā)生了極大的變化, 美國國家人類基因租研究院報告顯示, 在 2007年對一個人類基因租進行測序需要耗費 10M 美元,但是,到了 2011 年,就只需要花費 10K美元。對于許多生物學(xué)家而言,硬件基礎(chǔ)設(shè)施并沒有及時更新?lián)Q代,半數(shù)以上的人還要被迫使用無法滿足需求的、擴展性差的、固定的硬件設(shè)施。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論