數(shù)據(jù)分析師:告訴你如何迅速成為一名數(shù)據(jù)分析師?
數(shù)據(jù)分析最重要的可能并不是你熟悉的編程工具、分析軟件,或者統(tǒng)計學知識,而是清楚你所使用的統(tǒng)計知識(統(tǒng)計學、計量、時間序列、非參數(shù)等等)背后的原理、假設及其局限性,知道各種數(shù)據(jù)分析工具(例如數(shù)據(jù)挖掘)能帶來什么,不能帶來什么,看到一組統(tǒng)計檢驗的結果你能言說什么,不能言說什么。這一切的背后,需要一套完整的「科學」邏輯框架,讓你了解自己手中的工具的本質,你才能從數(shù)據(jù)中「正確地」發(fā)現(xiàn)有效的信息,而不是胡亂地使用一大堆自己都搞不清楚的工具來堆砌分析結果,這樣得到分析結果不僅無用,而且有害。
知道了這些后,希望成長為「數(shù)據(jù)分析師」,就需要著手訓練自己的能力和洞察力。既然是「數(shù)據(jù)分析師」,那就分別從「數(shù)據(jù)」和「分析」兩方面入手。
「數(shù)據(jù)」當然包含了數(shù)據(jù)收集、處理、可視化等內容,每個環(huán)節(jié)對于最后的結果都有關鍵性的影響。其中涉及的技術性內容只是一部分而已,更重要的是你要理解數(shù)據(jù)收集(是否存在采樣偏差?如何糾正或者改進?)、處理(是否有漏洞或異常情況沒有考慮?)背后的邏輯。
例如:如果分析股票數(shù)據(jù)用于設計交易策略,那么你不僅需要明白數(shù)據(jù)處理本身的問題,還要清楚金融市場的基本知識。例如,使用股票價格時,到底要用收盤價,還是復權價;復權價的話要用前復權價還是后復權價。這些選擇與數(shù)據(jù)分析沒有太大的關系,純粹決定于你分析的目的是什么。因此你要充分了解這些概念背后的邏輯、動機是什么,才能正確地根據(jù)自己的目的作出選擇。
數(shù)據(jù)可視化更多的是一門藝術:如何把信息以最恰當?shù)姆绞匠尸F(xiàn)給希望獲得這些信息的人。首先,你要充分理解這些信息究竟是什么,有什么特點,你才能較為恰當?shù)倪x擇采用的可視化工具。
另外一部分就是「分析」。當然就是各種分析模型,還是需要了解這些模型背后的邏輯,要放到整個項目的上下文中去看,而不是單純地在模型中看。
總而言之,「理解」數(shù)據(jù)以及其中的信息是非常重要的,這決定了你的分析和呈現(xiàn)的方法是否合適,決定了最后的結論是否可靠。
現(xiàn)在可以回答題主的問題了:成長為一個數(shù)據(jù)分析師,要注意「理解」你的知識,形成一個系統(tǒng),而不是像機器人一樣機械地胡亂套用模型。在這個理念下訓練你的編程能力,了解你所分析對象的原理和盡可能多的細節(jié)。在這個基礎上,才能談數(shù)據(jù)分析。
via:知乎