“中國好創(chuàng)意”全國校園推廣宣傳-v3_第1頁
已閱讀1頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、,,,,,,,,中國計算機學(xué)會,全青年大數(shù)據(jù)創(chuàng)新大賽,“中國好創(chuàng)意”,,,目錄,1,2,3,4,大賽背景,賽事介紹,往屆大賽回顧,參賽技巧,“中國好創(chuàng)意”,大賽背景,,By 2018, the U.S. alone may face a 50 percent to 60 percent gap between supply and requisite demand of deep analytic talent.

2、------McKinsey,,,古老智慧  懸賞,眾包  現(xiàn)代思維,大賽背景,,,大賽背景,,,大賽背景,,,大賽背景,,,,,,,,,中國計算機學(xué)會,全青年大數(shù)據(jù)創(chuàng)新大賽,“中國好創(chuàng)意”,,,大賽背景,組委會介紹,承辦單位,指導(dǎo)單位,戰(zhàn)略合作,出題單位,主辦單位,國家互聯(lián)網(wǎng)信息辦公室網(wǎng)絡(luò)數(shù)據(jù)與技術(shù)局,中國計算機學(xué)會,CCF大數(shù)據(jù)專家委員會教育部易班發(fā)展中心北京數(shù)聯(lián)眾創(chuàng)科技有限公司,百度、中國聯(lián)通、中國移動、阿里、海量、亞信數(shù)

3、據(jù)、中科曙光、華大基因、略數(shù)據(jù)、中華網(wǎng),清華大學(xué)、中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟,,,大賽背景,旨在通過大賽構(gòu)建良好的資源共享平臺,創(chuàng)造大數(shù)據(jù)的良性發(fā)展環(huán)境,促進大數(shù)據(jù)、“互聯(lián)網(wǎng)+”與云計算等戰(zhàn)略新興產(chǎn)業(yè)的融合,促進大數(shù)據(jù)專業(yè)技術(shù)人才的培養(yǎng),為國家輸出有創(chuàng)新能力和實踐能力的高端人才,推進“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”?! 〈蛟煲粋€數(shù)據(jù)分享、數(shù)據(jù)管理、數(shù)據(jù)建模與數(shù)據(jù)分析的在線大數(shù)據(jù)云平臺,匯聚企事業(yè)單位、政府機構(gòu)和高校的大數(shù)據(jù)需求。大賽分為“大數(shù)據(jù)創(chuàng)新程

4、序大賽”和 “大數(shù)據(jù)創(chuàng)意應(yīng)用大賽”,吸引一群有志于大數(shù)據(jù)技術(shù)與研究的數(shù)據(jù)工作愛好者,通過“眾包”模式,利用數(shù)據(jù)分析方法以及大數(shù)據(jù)創(chuàng)新創(chuàng)意應(yīng)用原型系統(tǒng)分析數(shù)據(jù) 價值、針對問題求解。,海量數(shù)據(jù),至高榮譽,百萬獎金,權(quán)威專家,“中國好創(chuàng)意”,賽事介紹,,,賽事介紹-大賽類型,賽題提供所涉及的數(shù)據(jù)和明確的評價指標(biāo),制定在線評價程序。參賽團隊通過大賽官方平臺直接提交結(jié)果文件或提交程序代碼,系統(tǒng)自動打分,在線排名(A+B榜)。,賽題提供數(shù)據(jù)或參賽者

5、自行獲取數(shù)據(jù)和開放式問題。參賽團隊自由設(shè)計創(chuàng)意應(yīng)用,提供完整解決方案(例如:方案策劃書、原型系統(tǒng)、應(yīng)用程序、相關(guān)說明文檔等),通過大賽官方平臺提交解決方案包。專家線上打分,公布排行榜。,大數(shù)據(jù)創(chuàng)新程序大賽,大數(shù)據(jù)創(chuàng)意應(yīng)用大賽,,,賽事介紹-比賽規(guī)則,,,賽事介紹-比賽規(guī)則,算法類,應(yīng)用類,排行榜,2015,2016,,,賽事介紹-主體賽程,,,賽事介紹-賽題簡介,賽題提供所涉及的數(shù)據(jù)和明確的評價指標(biāo),制定在線評價程序。參賽團隊通過大賽

6、官方平臺直接提交結(jié)果文件或提交程序代碼,系統(tǒng)自動打分,在線排名(A+B榜)。,賽題提供所涉及的數(shù)據(jù)和明確的評價指標(biāo),制定在線評價程序。參賽團隊通過大賽官方平臺直接提交結(jié)果文件或提交程序代碼,系統(tǒng)自動打分,在線排名(A+B榜)。,,,賽事介紹-賽題簡介,本題提供了100萬名隨機用戶在六個月內(nèi)的廣告曝光和點擊日志,包括廣告監(jiān)測點數(shù)據(jù)。參賽者需要預(yù)測每個用戶在下一周的時間內(nèi)是否會在各監(jiān)測點上發(fā)生點擊行為。以提供指導(dǎo)廣告主進行定向廣告投放和優(yōu)化

7、的方向。,本題依據(jù)歷史票房數(shù)據(jù)、影評數(shù)據(jù)、輿情數(shù)據(jù)等互聯(lián)網(wǎng)公眾數(shù)據(jù),從題材、內(nèi)容、導(dǎo)演、演員、編輯、發(fā)行方等等影響電影票房的因素入手,借助大數(shù)據(jù)對電影市場進行分析,設(shè)計電影票房預(yù)測系統(tǒng),指導(dǎo)電影制作。,,,賽事介紹-賽題簡介,本題根據(jù)行業(yè)訴求,要求參賽者以移動運營商記錄的用戶位置信息,以及相關(guān)的用戶標(biāo)簽信息(性別、年齡、偏好等)數(shù)據(jù)為基礎(chǔ),基于用戶位置信息,設(shè)想其應(yīng)用場景,或分析利用位置信息如何創(chuàng)新現(xiàn)有的商業(yè)模式。,本題要求參賽者利用運

8、營商用戶數(shù)據(jù),構(gòu)建算法模型,測試驗證,形成可行的完整的互聯(lián)網(wǎng)金融領(lǐng)域內(nèi)的創(chuàng)意數(shù)據(jù)產(chǎn)品技術(shù)方案,可以是一個新的創(chuàng)意,也可以是現(xiàn)有問題(如個人征信評估,可貸額度估算)新的解決方法。,,,賽事介紹-賽題簡介,本題要求參賽者基于短信文本內(nèi)容,結(jié)合機器學(xué)習(xí)算法、大數(shù)據(jù)分,析準(zhǔn)確地、完整地識別出垃圾短信、正常短信。解決傳統(tǒng)的基于策略、關(guān)鍵詞等過濾手段,很多垃圾短信“逃脫”過濾到達手機終端的問題。,本題基于當(dāng)前語音交互方式這種更大、更靈活、方便的體驗

9、,要求參賽者針對聽報告、語音對話、交互查詢等這些語音直接溝通的語言表述進行分析、轉(zhuǎn)換、查詢獲得最終結(jié)果反饋給使用者。,,,賽事介紹-賽題簡介,本題基于法律判決文書中包含的大量的涉案金額細項,要求參賽者提取文書中的費用類型以及具體的金額。 判決書,法律術(shù)語,是指法院根據(jù)判決寫成的文書,是法律界常用的一種應(yīng)用寫作文體。,本題基于京東服裝品類的50萬商品主圖以及對應(yīng)的三級分類,要求參賽者根據(jù)商品圖片,對圖像進行計算處理,預(yù)測商品所屬的三級分類

10、。以達到通過提取京東商品圖像特征,提供給推薦、廣告等系統(tǒng),提高推薦/廣告的效果。,,,賽事介紹-賽題簡介,本題可抽象為字符串的匹配、查找問題。人的基因序列和細菌的序列可看做一組長的字符串(A),而待檢測個體的數(shù)據(jù)是一個短字符串的集合(B)。需要確定字符串集合B中的字符串能夠同字符串集合A中哪些字符串匹配。,精確的語義分析是大數(shù)據(jù)必備技術(shù),在分析句子時,不同句式即使用類似的關(guān)鍵詞,表達的含義和有很大差別,特別是在情感判斷中,更需要精準(zhǔn)判斷

11、關(guān)鍵詞的作用。本題要求參賽者能夠準(zhǔn)確地推斷出一個句子的句式。,本題要求參賽者對提供的各級地址文本完整、準(zhǔn)確地識別。通過對地址進行標(biāo)準(zhǔn)化的處理,使基于地址的多維度量化挖掘分析成為可能,為不同場景模式下的電子商務(wù)應(yīng)用挖掘提供了更加豐富的方法和手段。,,,賽事介紹-大賽導(dǎo)師,,,賽事介紹-大賽評委,“中國好創(chuàng)意”,往屆大賽回顧,,,往屆大賽回顧,,,,,,,,,,,2013年,4個企業(yè),5道賽題,2014年,7個企業(yè),7道賽題,關(guān)鍵詞行業(yè)分類

12、(百度)電信網(wǎng)絡(luò)尋呼黑洞分析(中國移動)電信用戶交往圈構(gòu)建和特定類型用戶識別(中國移動)用戶購買行為的歸因分析(秒針)基于出租車GPS軌跡的位置服務(wù)(數(shù)據(jù)堂),百度大數(shù)據(jù)創(chuàng)意應(yīng)用 (百度)用戶瀏覽新聞的模式分析及個性化新聞推薦(百分點)系列危害公共安全事件的關(guān)聯(lián)關(guān)系挖掘及預(yù)測 (海量)基于人物的相關(guān)網(wǎng)絡(luò)視頻挖掘 (中科云網(wǎng))基于互聯(lián)網(wǎng)大數(shù)據(jù)的日志類應(yīng)用處理 (南大通用)電商消費行為預(yù)測 (思明)多媒體展示廣告點擊率預(yù)

13、估 (騰訊),,,往屆大賽回顧,,,,,,,,約1760人,660支,所有985高校大部分211高校10所境外高校,約2800人,888支,所有985高校大部分211高校3所境外高校46家企業(yè)或政府機構(gòu)20多支自由組合隊伍,,總?cè)藬?shù),隊伍總數(shù),隊伍分布,總?cè)藬?shù),隊伍總數(shù),隊伍分布,2013年,2014年,境外高校:倫敦大學(xué)院、澳門科技大學(xué)、紐約州立大學(xué)Buffalo分校、卡耐基梅隆大學(xué)、佐治亞理工學(xué)院、香港大學(xué)、香港理工大

14、學(xué)、香港科技大學(xué)、南洋理工大學(xué)、密蘇里哥倫比亞大學(xué),境外高校:麻省理工學(xué)院、喬治華盛頓大學(xué)、香港科技大學(xué)企業(yè)或政府機構(gòu):百度、京東、攜程、新浪微博、西門子、神龍汽車、中國國防科技信息中心等,,,,,,,用戶瀏覽新聞的模式分析及個性化新聞推薦,,電信用戶交往圈構(gòu)建和特定類型用戶識別,,基于出租車GPS軌跡的位置服務(wù),,系列危害公共安全事件的關(guān)聯(lián)關(guān)系挖掘及預(yù)測,,,往屆大賽回顧-TOP5,,百度大數(shù)據(jù)創(chuàng)意及應(yīng)用,13.69%,13.31

15、%,9.48%,12.41%,10.13%,,,,往屆大賽回顧,,,,往屆大賽回顧,“中國好創(chuàng)意”,參賽技巧,,,參賽技巧,且慢動手,好好咀嚼題目,,,參賽技巧,我們比的是什么?——評價函數(shù),評價函數(shù)影響其他兩者,如果損失函數(shù)是最小絕對差,如果損失函數(shù)是最小方差,特定模型只對特定損失函數(shù)最優(yōu),,,參賽技巧,先跟數(shù)據(jù)培養(yǎng)感情,數(shù)據(jù)競賽的目標(biāo):overspecialization without overfitting算法為數(shù)據(jù)而生實

16、用性是次要的(但也有時候是主要因素)用可視化工具為數(shù)據(jù)畫像,用可視化分析工具熱身有anomaly/outlier嗎?有明顯的規(guī)律嗎?可以簡化問題嗎?了解領(lǐng)域知識數(shù)據(jù)科學(xué)家=分析技術(shù)+領(lǐng)域知識+數(shù)據(jù)直覺,,,參賽技巧,兩份數(shù)據(jù),兩個排行榜,Public data (一般25-33% of total test data)Public leaderboard 實時排行榜Private data (其余數(shù)據(jù),for final

17、 score)保證最精確、同時有足夠泛化的model獲勝Private leaderboard 決定最終名次有時候有三份數(shù)據(jù)如Netflix Prize:training, test, quiz,,,參賽技巧,尋找相關(guān)工作,Kaggle可能已經(jīng)有相似的競賽Tutorial,得勝者經(jīng)驗之談,如 http://blog.kaggle.com/category/dojo/論文,開源代碼,技術(shù)文章聯(lián)系作者到論壇尋寶,提問活

18、躍論壇,如 https://www.kaggle.com/forums/f/15/kaggle-forum本大賽論壇,,,參賽技巧,準(zhǔn)備工具和本地環(huán)境,R,Python,SQL,Java,……選擇最拿手的提交環(huán)境支持Kaggle R Tutorial on Machine Learning建立本地環(huán)境,,,參賽技巧,不要把模型想得太復(fù)雜,往往一些基礎(chǔ)模型就很好到MOOC上好好溫習(xí)一下基礎(chǔ),如 https://www.cou

19、rsera.org/learn/machine-learning 特征工程:重中之重采用原始特征,利用領(lǐng)域知識選擇golden features自動方法(如PCA,深度學(xué)習(xí))或者采用復(fù)雜的黑盒模型,,,參賽技巧,避免Overfitting,相比訓(xùn)練數(shù)據(jù)規(guī)模,模型不能過于復(fù)雜過多的提交可能導(dǎo)致overfittingCross-validation,,,參賽技巧,Ensemble:終極絕招,眾愚成智:很多模型加起來能夠提高

20、泛化能力,尤其是針對復(fù)雜的問題人多未必力量大:精心挑選模型的組合使候選模型間相關(guān)性弱作為最后一步一些技巧http://www.kdnuggets.com/2015/06/ensembles-kaggle-data-science-competition-p1.htmlhttp://www.kdnuggets.com/2015/06/ensembles-kaggle-data-science-competition-p2.h

21、tml,,,參賽技巧,In each competition I learn a bit more from the winners. A competition is not won by one insight, usually it is won by several careful steps towards a good modelling approach. Everything play it

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論