來(lái)源:InfoQ
原文鏈接:http://www.infoq.com/cn/news/201 ... ?utm_source=tuicool
也許你一直覺(jué)得“科學(xué)家”這個(gè)詞離自己很遙遠(yuǎn),然而由于大數(shù)據(jù)時(shí)代的來(lái)臨,存在著許多數(shù)據(jù)科學(xué)家的崗位空缺,從基礎(chǔ)開始,人人都可以成為炙手可熱的數(shù)據(jù)科學(xué)家,就讓我們來(lái)看一下如何成為一名真的的數(shù)據(jù)科學(xué)家吧!
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,在線學(xué)習(xí)逐漸成為主流,MOOC、慕課等概念如雨后春筍般涌現(xiàn)。以往高等學(xué)府才能接觸到的計(jì)算機(jī)科學(xué)和數(shù)據(jù)科學(xué),也隨著這次風(fēng)潮來(lái)到了公眾面前。OSDSM,即數(shù)據(jù)科學(xué)開源課程,能夠從理論和技術(shù)兩方面,幫助人們學(xué)習(xí)有效利用數(shù)據(jù)的核心技能。
一、利用互聯(lián)網(wǎng)成為“大咖”
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,網(wǎng)絡(luò)公開課的網(wǎng)站和APP等日益成熟,從聽(tīng)課、討論到考試,一條龍的自學(xué)服務(wù)已經(jīng)頗成規(guī)模。這些課程中,計(jì)算機(jī)科學(xué)尤其是數(shù)據(jù)科學(xué)相關(guān)的知識(shí)都已包含在內(nèi),用戶通過(guò)使用Coursera、ebooks、StackOverflow以及GitHub等平臺(tái)發(fā)布免費(fèi)的教育資源,完全能夠掌握數(shù)據(jù)科學(xué)的關(guān)鍵內(nèi)容。
二、學(xué)習(xí)數(shù)據(jù)科學(xué)的動(dòng)力
現(xiàn)在數(shù)據(jù)科學(xué)家崗位面臨極大的缺口。所謂數(shù)據(jù)科學(xué)家,就是同時(shí)掌握統(tǒng)計(jì)學(xué)。
知識(shí)與程序設(shè)計(jì)技巧,能夠服務(wù)大數(shù)據(jù)開發(fā)的技術(shù)專家。成為一名數(shù)據(jù)科學(xué)家,就有了大數(shù)據(jù)時(shí)代互聯(lián)網(wǎng)行業(yè)的通行證。2013年7月,麥肯錫的報(bào)告顯示,到2018年,美國(guó)數(shù)據(jù)科學(xué)家將會(huì)面臨多達(dá)19萬(wàn)名的缺口。另外與數(shù)據(jù)科學(xué)的相關(guān)崗位也炙手可熱,能夠從數(shù)據(jù)中挖掘分析見(jiàn)解的管理、分析型人才,缺口高達(dá)150萬(wàn)。
在這種條件下,只要通過(guò)學(xué)習(xí)、培訓(xùn),就有機(jī)會(huì)成為這些急需專業(yè)人才中的一員。在這個(gè)新興的行業(yè)中,知識(shí)與技能比工作經(jīng)驗(yàn)更加重要。David Hardtke就說(shuō),根本就沒(méi)有5年工作經(jīng)驗(yàn)以上的數(shù)據(jù)科學(xué)家,因?yàn)槟菚?huì)兒壓根沒(méi)有這個(gè)崗位。
三、 學(xué)校教育的短板
在現(xiàn)在的教育體制中,統(tǒng)計(jì)學(xué)人才由統(tǒng)計(jì)學(xué)專業(yè)提供,計(jì)算機(jī)科學(xué)人才由計(jì)算機(jī)專業(yè)提供。雖然兩種學(xué)科的專業(yè)課程內(nèi)容互有重疊,但從目的和導(dǎo)向來(lái)看,根本無(wú)法塑造兼?zhèn)鋬煞N專業(yè)知識(shí)與能力的復(fù)合型人才。一般的學(xué)校教育,不能培養(yǎng)出數(shù)據(jù)科學(xué)家,所以這項(xiàng)人才缺口必須通過(guò)其他方式進(jìn)行彌補(bǔ)。
對(duì)于高級(jí)的數(shù)據(jù)科學(xué)家來(lái)說(shuō),學(xué)歷很重要,但不是必要的。不論來(lái)自藍(lán)翔還是清華,不論是?、本科還是研究生,都能夠勝任。一名數(shù)據(jù)科學(xué)家所需的核心能力——好奇、聰明,能進(jìn)行流暢的數(shù)據(jù)分析,有研究的耐心,有嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度,對(duì)事物持普遍懷疑態(tài)度(這些都是將數(shù)據(jù)科學(xué)家從其他人中區(qū)分出來(lái)的特質(zhì))——是所有行業(yè)的人中廣泛具有的。
從足夠多的案例中可以看到,很多沒(méi)有學(xué)歷的、沒(méi)有經(jīng)驗(yàn)的人嘗試學(xué)習(xí)數(shù)據(jù)科學(xué),依靠自己的努力,廣泛運(yùn)用當(dāng)前的建模工具,并將自己的一技之長(zhǎng)加入開源生態(tài)系統(tǒng)內(nèi)。數(shù)據(jù)科學(xué)的平臺(tái)和工具正通過(guò)開源得到了極大豐富,大數(shù)據(jù)時(shí)代的數(shù)據(jù)科學(xué)家也通過(guò)開源不斷增加。
此外,還有另一項(xiàng)趨勢(shì)可以緩解現(xiàn)在的人才缺口:數(shù)據(jù)科學(xué)民主化。雖然Neil Raden說(shuō)“最頂級(jí)的數(shù)據(jù)科學(xué)家將在高校、高科技企業(yè)、金融界和ZF大展身手”,但其實(shí)范圍遠(yuǎn)不止于此,James Kobielus認(rèn)為自學(xué)、低學(xué)歷但熱愛(ài)數(shù)據(jù)的人,也將在這一眾組織機(jī)構(gòu)對(duì)大數(shù)據(jù)的需求中發(fā)揮的重要作用。
四、 從這里開始:數(shù)據(jù)科學(xué)的課程表
這些數(shù)據(jù)科學(xué)的開源課程,從數(shù)學(xué)、編程等幾個(gè)方面塑造數(shù)據(jù)科學(xué)“大咖”。這不是為了重溫大學(xué)課程,而是以問(wèn)題導(dǎo)向準(zhǔn)備知識(shí)。為了集中精力,建議讀者選擇同一種編程語(yǔ)言的課程學(xué)習(xí)。我們將這些課程分成了六類,方便讀者按照自身能力階段學(xué)習(xí),當(dāng)然一些課程和書籍現(xiàn)在還沒(méi)有全部開源,需要讀者自行購(gòu)買。
(一)基礎(chǔ)篇
華盛頓大學(xué)在Coursera的《Intro to Data Science》課程、哈佛大學(xué)的《Data Science》課程,同時(shí)可以參考《Data Science with Open Source Tools》一書。所謂“基礎(chǔ)”,是指這一部分課程是為那些對(duì)編程有最起碼了解,但對(duì)數(shù)據(jù)科學(xué)的其它部分——即統(tǒng)計(jì)學(xué)和分布式計(jì)算——有濃厚興趣的人準(zhǔn)備的簡(jiǎn)介課程。
(二)數(shù)學(xué)
線性代數(shù)部分,推薦斯坦福大學(xué) Levandosky的《Linear Algebra》、華盛頓大學(xué)《Linear Programming (Math 407) 》課程,統(tǒng)計(jì)學(xué)部分推薦普林斯頓大學(xué)在Coursera《Statistics》課程,《Stats in a Nutshell》、《Think Stats: Probability andStatistics for Programmers》、《Think Bayes》。微分方程和微積分,推薦Python指導(dǎo)手冊(cè)中的《Differential Equations in Data Science》。建模部分推薦G. Polya的 《How to Solve It: A New Aspect of Mathematical Method (Princeton Science Library) 》。
(三)編程
算法部分,推薦斯坦福大學(xué)在Coursera上的課程《Algorithms Design & Analysis》,Kleinberg、Tardos 的《Algorithm Design》。分布式計(jì)算推薦華盛頓大學(xué)的Coursera課程中Lectures on MapReduce講座,Cloudera在 Udacity Course上的課程 《Introto Hadoop and MapReduce》, 其中有《Hadoop: The Definitive Guide Book》一書的重要內(nèi)容摘要,以及Tom White的《Hadoop: The Definitive Guide Book》。數(shù)據(jù)庫(kù)部分,推薦斯坦福大學(xué)的在線課程《Introduction to Databases》,SQLSchool Mode Analytics 網(wǎng)站的教程或SQL Tutorials SQLZO網(wǎng)站的教程。數(shù)據(jù)挖掘推薦斯坦福大學(xué)在Coursera上的課程《Mining Massive Data Sets》、Anand Rajaraman,Jeffrey David Ullman 合著的《Mining of Massive Datasets》、Matthew A. Russell的《Mining the Social Web: Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub, and More 》、Christopher D. Manning與Prabhakar Raghavan、Hinrich Schütze 的《Introduction to Information Retrieval》。
(四)數(shù)據(jù)可視化
數(shù)據(jù)可視化涉及圖形設(shè)計(jì)基礎(chǔ)知識(shí),需要學(xué)習(xí)《Envisioning Information》與《The Visual Display of Quantitative Information》兩本書。在了解設(shè)計(jì)的基礎(chǔ)知識(shí)后,推薦華盛頓大學(xué)的《Data Visualization》、加州大學(xué)伯克利分校的《Berkeley's Viz Class》以及萊斯大學(xué)的《Rice University's Data Viz class》。練習(xí)資源可在Scott Murray的《Interactive Data Visualization for the Web》一書及博客的D3 Library得到。
(五)實(shí)戰(zhàn)教程
這一部分以Python為例,掌握Python語(yǔ)言并不難,《Learn Python the Hard Way》、《Think Python》都很不錯(cuò),Google有Python課程,加州理工的《Introduction to Computer Science and Programming》也很不錯(cuò)。
在實(shí)戰(zhàn)中,需要準(zhǔn)備Python和virtualenv、NumPy、SciPy、matplotlib、IPython這些軟件包,還得會(huì)使用它們。這些軟件包涉及數(shù)據(jù)結(jié)構(gòu)與分析、機(jī)器學(xué)習(xí)、網(wǎng)絡(luò)環(huán)境、統(tǒng)計(jì)、自然語(yǔ)言、可視化以及應(yīng)用案例與接口。
(六)進(jìn)階
對(duì)于立志成為數(shù)據(jù)科學(xué)“大咖”的人,推薦繼續(xù)閱讀《Doing Data Science: Straight Talk from the Frontline》一書。如果能夠?qū)W習(xí)《Capstone Analysis of Your Own Design; Quora's Idea Compendium》和華盛頓大學(xué)的《Healthcare Twitter Analysis》,則能夠在打開 “大咖”大門之時(shí)起到畫龍點(diǎn)睛的效果。