版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、需求高漲的數(shù)據(jù)科學(xué)家需求高漲的數(shù)據(jù)科學(xué)家從技術(shù)方面來(lái)看,硬盤價(jià)格下降,NoSQL數(shù)據(jù)庫(kù)等技術(shù)的出現(xiàn),使得和過去相比,大量數(shù)據(jù)能夠以廉價(jià)高效的方式進(jìn)行存儲(chǔ)。此外,像Hadoop這樣能夠在通用性服務(wù)器上工作的分布式處理技術(shù)的出現(xiàn),也使得對(duì)龐大的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)計(jì)處理的工作比以往更快速且更廉價(jià)。然而,就算所擁有的工具再完美,它本身是不可能讓數(shù)據(jù)產(chǎn)生價(jià)值的。接下來(lái)我們還需要能夠運(yùn)用這些工具的人才,他們能夠從堆積如山的大量數(shù)據(jù)中找到金礦,并將數(shù)
2、據(jù)的價(jià)值以易懂的形式傳達(dá)給決策者,最終得以在業(yè)務(wù)上實(shí)現(xiàn)。具備這些技能的人才,就是在大數(shù)據(jù)浪潮如火如荼的美國(guó)目前正千金難求的“數(shù)據(jù)科學(xué)家”。對(duì)數(shù)據(jù)科學(xué)家的關(guān)注,源于大家逐步認(rèn)識(shí)到,Google、Amazon、Facebook等公司成功的背后,存在著這樣的一批專業(yè)人才。這些Web公司對(duì)于大量數(shù)據(jù)不僅僅是進(jìn)行存儲(chǔ)而已,而是將其變?yōu)橛袃r(jià)值的金礦——例如,搜索結(jié)果、定向廣告、準(zhǔn)確的商品推薦、可能認(rèn)識(shí)的好友列表等。數(shù)據(jù)科學(xué)(datascience)
3、是一個(gè)很久之前就存在的詞匯,但數(shù)據(jù)科學(xué)家(datascientist)卻是幾年前突然出現(xiàn)的一個(gè)新詞。關(guān)于這個(gè)詞的起源說(shuō)法不一,其中在《數(shù)據(jù)之美》(BeautifulData,TobySegaran、JeffHammerbacher編著,O’Reilly出版)一書中,對(duì)于Facebook的數(shù)據(jù)科學(xué)家,有如下敘述?!霸贔acebook,我們發(fā)現(xiàn)傳統(tǒng)的頭銜如商業(yè)分析師、統(tǒng)計(jì)學(xué)家、工程師和研究科學(xué)家都不能確切地定義我們團(tuán)隊(duì)的角色。該角色的工作是
4、變化多樣的:在任意給定的一天,團(tuán)隊(duì)的一個(gè)成員可以用Python實(shí)現(xiàn)一個(gè)多階段的處理管道流、設(shè)計(jì)假設(shè)檢驗(yàn)、用工具R在數(shù)據(jù)樣本上執(zhí)行回歸測(cè)試、在Hadoop上為數(shù)據(jù)密集型產(chǎn)品或服務(wù)設(shè)計(jì)和實(shí)現(xiàn)算法,或者把我們分析的結(jié)果以清晰簡(jiǎn)潔的方式展示給企業(yè)的其他成員。為了掌握完成這多方面任務(wù)需要的技術(shù),我們創(chuàng)造了‘?dāng)?shù)據(jù)科學(xué)家’這種角色?!眱H僅在幾年前,數(shù)據(jù)科學(xué)家還不是一個(gè)正式確定的職業(yè),然而一眨眼的工夫,這個(gè)職業(yè)就已經(jīng)被譽(yù)為“今后10年IT行業(yè)最重要的人
5、才”了。Google首席經(jīng)濟(jì)學(xué)家,加州大學(xué)伯克利分校教授哈爾?范里安(HalVarian,1947~)先生,在2008年10月與麥肯錫總監(jiān)JamesManyika先生的對(duì)話中,曾經(jīng)講過下面一段話(中文版節(jié)選自麥肯錫季刊官方中文稿)?!拔铱偸钦f(shuō),在未來(lái)10年里,最有意思的工作將是統(tǒng)計(jì)學(xué)家。人們都認(rèn)為我在開玩笑。但是,過去誰(shuí)能想到電腦工程師會(huì)成為上世紀(jì)90年代最有趣的工作?在未來(lái)10年里,獲取數(shù)據(jù)——以便能理解它、處理它、從中提取價(jià)值、使其
6、形象化、傳送它——的能力將成為一種極其重要的技能,不僅在專業(yè)層面上是這樣,而且在教育層面(包括對(duì)中小學(xué)生、高中生和大學(xué)生的教育)也是如此。由于如今我們已真正擁有實(shí)質(zhì)上免費(fèi)的和無(wú)所不在的數(shù)據(jù),因此,與此互補(bǔ)的稀缺要素是理解這些數(shù)據(jù)并從中提職務(wù)內(nèi)容職務(wù)內(nèi)容?確定重要的產(chǎn)品課題,并與產(chǎn)品工程團(tuán)隊(duì)密切合作尋求解決方案?通過對(duì)數(shù)據(jù)運(yùn)用合適的統(tǒng)計(jì)技術(shù)來(lái)解決課題?將結(jié)論傳達(dá)給產(chǎn)品經(jīng)理和工程師?推進(jìn)新數(shù)據(jù)的收集以及對(duì)現(xiàn)有數(shù)據(jù)源的改良?對(duì)產(chǎn)品的實(shí)驗(yàn)結(jié)果進(jìn)
7、行分析和解讀?找到測(cè)量、實(shí)驗(yàn)的最佳實(shí)踐方法,傳達(dá)給產(chǎn)品工程團(tuán)隊(duì)必要條件必要條件?相關(guān)技術(shù)領(lǐng)域的碩士或博士學(xué)位,或者具備4年以上相關(guān)工作經(jīng)驗(yàn)?對(duì)使用定量手段解決分析性課題擁有豐富的經(jīng)驗(yàn)?能夠輕松操作和分析來(lái)自各方的、復(fù)雜且大量的多維數(shù)據(jù)?對(duì)實(shí)證性研究以及解決數(shù)據(jù)相關(guān)的難題擁有極大的熱情?能對(duì)各種精度級(jí)別的結(jié)果采用靈活的分析手段?具備以實(shí)際、準(zhǔn)確且可行的方法傳達(dá)復(fù)雜定量分析的能力?至少熟練掌握一種腳本語(yǔ)言,如Python、PHP等?精通關(guān)系
8、型數(shù)據(jù)庫(kù)和SQL?對(duì)R、MATLAB、SAS等分析工具具備專業(yè)知識(shí)?具備處理大量數(shù)據(jù)集的經(jīng)驗(yàn),以及使用MapReduce、Hadoop、Hive等分布式計(jì)算工具的經(jīng)驗(yàn)來(lái)源:Facebook(中文翻譯出自譯者)Twitter對(duì)數(shù)據(jù)科學(xué)家(負(fù)責(zé)增加用戶數(shù)量)的招聘對(duì)數(shù)據(jù)科學(xué)家(負(fù)責(zé)增加用戶數(shù)量)的招聘信息信息關(guān)于業(yè)務(wù)內(nèi)容關(guān)于業(yè)務(wù)內(nèi)容Twitter計(jì)劃招聘能夠?yàn)樵黾覶witter用戶數(shù)提供信息和方向性,具備行動(dòng)力和高超技能的人才。應(yīng)聘者需要具
9、備統(tǒng)計(jì)和建模方面的專業(yè)背景,以及大規(guī)模數(shù)據(jù)集處理方面的豐富經(jīng)驗(yàn)。我們期待應(yīng)聘者所具有的判斷力能夠在多個(gè)層面上決定Twitter產(chǎn)品群的方向性。職責(zé)職責(zé)?使用Hadoop、Pig編寫MapReduce格式的數(shù)據(jù)分析?能夠針對(duì)臨時(shí)數(shù)據(jù)挖掘流程和標(biāo)準(zhǔn)數(shù)據(jù)挖掘流程編寫復(fù)雜的SQL查詢?能夠使用SQL、Pig、腳本語(yǔ)言、統(tǒng)計(jì)軟件包編寫代碼?以口頭及書面形式對(duì)分析結(jié)果進(jìn)行總結(jié)并做出報(bào)告?每天對(duì)數(shù)TB規(guī)模、10億條以上事務(wù)級(jí)別的大規(guī)模結(jié)構(gòu)化及非結(jié)構(gòu)化
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
評(píng)論
0/150
提交評(píng)論