數(shù)據(jù)分析師筆試題目_第1頁
已閱讀1頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、網(wǎng)易數(shù)據(jù)分析專員筆試題目一、基礎題1、中國現(xiàn)在有多少億網(wǎng)民?2、百度花多少億美元收購了 91 無線?3、app store 排名的規(guī)則和影響因素4、豆瓣 fm 推薦算法5、列舉 5 個數(shù)據(jù)分析的博客或網(wǎng)站二、計算題1、關于簡單移動平均和加權移動平均計算2、兩行數(shù)計算相關系數(shù)。 (2 位小數(shù),還不讓用計算器,反正我沒算)3、計算三個距離,歐幾里德,曼哈頓,閔可夫斯基距離三、簡答題1、離散的指標,優(yōu)缺點2、插補缺失值方法,優(yōu)缺點及適用環(huán)境3

2、、數(shù)據(jù)倉庫解決方案,優(yōu)缺點4、分類算法,優(yōu)缺點5、協(xié)同推薦系統(tǒng)和基于聚類系統(tǒng)的區(qū)別四、分析題關于網(wǎng)易郵箱用戶流失的定義,挑選指標。然后要構建一個預警模型。五、算法題記不得了,沒做。 。 。反正是決策樹和神經(jīng)網(wǎng)絡相關。1、你處理過的最大的數(shù)據(jù)量?你是如何處理他們的?處理的結果。2、告訴我二個分析或者計算機科學相關項目?你是如何對其結果進行衡量的?3、什么是:提升值、關鍵績效指標、強壯性、模型按合度、實驗設計、2/8 原則?4、什么是:協(xié)同

3、過濾、n-grams, map reduce、余弦距離?5、如何讓一個網(wǎng)絡爬蟲速度更快、抽取更好的信息以及更好總結數(shù)據(jù)從而得到一干凈的數(shù)據(jù)庫?6、如何設計一個解決抄襲的方案?7、如何檢驗一個個人支付賬戶都多個人使用?8、點擊流數(shù)據(jù)應該是實時處理?為什么?哪部分應該實時處理?28、什么是星型模型?什么是查詢表?29、你可以使用 excel 建立邏輯回歸模型嗎?如何可以,說明一下建立過程?30、在 SQL, Perl, C++, Pytho

4、n 等編程過程上,待為了提升速度優(yōu)化過相關代碼或者算法嗎?如何及提升多少?31、使用 5 天完成 90%的精度的解決方案還是花 10 天完成 100%的精度的解決方案?取決于什么內(nèi)容?32、定義:QA(質(zhì)量保障)、六西格瑪、實驗設計。好的與壞的實驗設計能否舉個案例?33、普通線性回歸模型的缺陷是什么?你知道的其它回歸模型嗎?34、你認為葉數(shù)小于 50 的決策樹是否比大的好?為什么?35、保險精算是否是統(tǒng)計學的一個分支?如果不是,為何如何

5、?36、給出一個不符合高斯分布與不符合對數(shù)正態(tài)分布的數(shù)據(jù)案例。給出一個分布非常混亂的數(shù)案例。37、為什么說均方誤差不是一個衡量模型的好指標?你建議用哪個指標替代?38、你如何證明你帶來的算法改進是真的有效的與不做任何改變相比?你對 A/B 測試熟嗎?39、什么是敏感性分析?擁有更低的敏感性(也就是說更好的強壯性)和低的預測能力還是正好相反好?你如何使用交叉驗證?你對于在數(shù)據(jù)集中插入噪聲數(shù)據(jù)從而來檢驗模型的敏感性的想法如何看?40、對于一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論