Python 是建議數(shù)據(jù)科學家應該學習的最頂尖的語言,掌握這種技能協(xié)商薪水時能得到更多。對任何數(shù)據(jù)科學家,特別是有抱負的數(shù)據(jù)科學家,或想要把 Python 作為技能掌握的開發(fā)者而言,這本書就是你的必讀書目。這本書將幫助讀者利用學習深度學習、數(shù)據(jù)整理、可視化數(shù)據(jù)的 Python 開源文庫。它還能提供學習策略和實踐,從而改善、優(yōu)化機器學習系統(tǒng)和算法。
作者:Sebastian Raschka
這本書為讀者提供了數(shù)據(jù)分析的整體概況,所以對于想要在此領域學習更多的人,或是對需要一本初級讀物并理解相關技術如何工作的經理人來說,它都是一本好書。這本書在每章開篇提供了小案例研究,并為數(shù)據(jù)挖掘技術和平臺提供了一個整體概覽。這本書也為了解 R 統(tǒng)計分析平臺提供輔導。
作者:Anil Maheshwari
3. Data Smart: Using Data Science to Transform Information Into Insight
這本書是由 MailChimp.com 首席數(shù)據(jù)科學家撰寫,集中論述了如何用微軟 Excel 從數(shù)據(jù)中獲得洞見,所以不要期待在這本書中學到 R 語言、Hadoop 或是 Apache Spark。但是在這本書里你將學到如何掌握 Excel 從而在數(shù)據(jù)設定中得到更多信息。
作者: John W. Foreman
4. Data Science For Business
本書是基于紐約大學 MBA 課程編寫而成,作者也是教授這一課程的講者之一。它介紹了數(shù)據(jù)科學的基礎、并引導讀者獲取從數(shù)據(jù)中尋找商業(yè)價值需要的「數(shù)據(jù)分析思維(data-analytics thinking)」 。本書探討了如何以數(shù)據(jù)挖掘技術和數(shù)據(jù)使用來獲得競爭優(yōu)勢。
作者:Foster Provost 、 Tom Fawcett
5. Hadoop: The Definitive Guide
想要學習 Hadoop?那這本書就是你需要的。這是出版于 2015 年的第四版。本版專門使用了 Haddop 2 并增加了新的章節(jié)描述 YARN 和 Hadoop 相關項目,比如 Parquet、Flume、Crunch、Spark。另外,本書覆蓋了 Hadoop 的基礎內容,MapReduce、HDFS 和 YARN。也闡述了如何建立并維護在這三個基本成分上運行 Haddop 集群。本書討論的其他主要技術包括 Pig、Hive、Crunch、HBase 和 ZooKeeper 等。
作者:Tom White
6. R Cookbook
這本指南提供了使用 R 語言快速進行數(shù)據(jù)分析的方法。它包含了 200 多個關于這一開源語言(統(tǒng)計學家們的首選)的方法。本書的書評員也是第一次接觸 R,并將這本書描述為為他們節(jié)省了大量時間的具有實踐意義的入門指南和參考工具。
作者:Paul Teetor
7. Storytelling With Data
如果你不能用受眾群體覺得有趣的方式呈現(xiàn)給大家,那從數(shù)據(jù)中發(fā)現(xiàn)的關鍵點還有意義嗎?這種把信息放到語境當中的技能也是非常有價值的能力。這本書就在以下三點上提供了竅門:如何將受眾的注意力引導到最重要的數(shù)據(jù)點,如何用恰當?shù)目梢暬椒ń涣鲾?shù)據(jù),如何用故事化的方法將信息傳遞給受眾。
作者:Cole Nussbaumer Knaflic
8. Learning Spark
Hadoop 已然成為大數(shù)據(jù)的同義詞了,然而 Spark 卻是一個讓大數(shù)據(jù)工程發(fā)展更快的新型的、熱門技術。每一系列大數(shù)據(jù)書集都會包含一本關于 Spark 的書,而這一本則是由 Spark 的開發(fā)人員撰寫的。這本書涵蓋了分布式數(shù)據(jù)集、內存式緩存、交互式 shell 和像 Spark SQL 和 MLib 那樣的嵌入式文庫,以及連接像 HDFS、Hive、JSON 和 S3的數(shù)據(jù)資源。
作者:Holden Karau,Andy Konwinski,Patrick Wendell 和 Matei Zaharia
9. Weapons Of Math Destruction: How Big Data Increases Inequality And Threatens Democracy
這不是一本指導用書或入門書。相反,這本書關注的是:因為每個人都由同一套規(guī)則評判,算法能否通過將人類從計算中解放出來,從而讓世界更加公平。但是作者也指出,對立方才是正確的。本書由前華爾街數(shù)量分析專家撰寫,將帶你了解算法性質的未來對文化和經濟的影響。作者就我們現(xiàn)有的模式展開討論,他認為這個模式是不透明的,未校準的,無可抗衡的。甚至他們是錯。而且他堅持這些模式會增強歧視。舉例來說,如果一個窮學生因為他的郵政編碼信息顯示他風險太高(還貸能力弱),那他就無法得到貸款(譯者:國外銀行卡會登記郵編,所以可以通過查詢郵編來得知相應的信用記錄),隨后他將無法得到這個能將他帶離貧困的教育機會。
作者:Cathy O'Neil
10. Building Data Science Teams
這是一本由美國白宮國家科學與技術政策辦公室的首席數(shù)據(jù)科學家撰寫的免費電子書。本書闡釋了技能、觀點、工具和他認為成功定位數(shù)據(jù)科學團隊的流程。作者 DJ Patil 將他作為 Linkedin 數(shù)據(jù)科學團隊架構師的經歷帶到本書當中,描述了成為數(shù)據(jù)科學家的四個重要資質和建立「數(shù)據(jù)驅動(data driven)」組織意味著什么。
作者:DJ Patil