數(shù)據(jù)分析:對大量有序或無序的數(shù)據(jù)進(jìn)行信息的集中整合、運算提取、展示等操作,通過這些操作找出研究對象的內(nèi)在規(guī)律。
目的:揭示事物運動、變化、發(fā)展的規(guī)律。
意義:提高系統(tǒng)運行效率、優(yōu)化系統(tǒng)作業(yè)流程、預(yù)測未來發(fā)展趨勢。
1、商業(yè)智能(BI)
通過商業(yè)智能,將數(shù)據(jù)分析人員從大量、簡陋的數(shù)據(jù)圖表分析中解放出來,通過數(shù)據(jù)倉庫整合企業(yè)數(shù)據(jù),采用商業(yè)智能(BI, Business Intelligence)報表工具實現(xiàn)美觀清晰、模塊化、動態(tài)更新的數(shù)據(jù)可視化展示,讓管理層或決策者能夠基于事實結(jié)果做決策。
2、數(shù)據(jù)中臺
由于企業(yè)不同部門業(yè)務(wù)不同等的差異,采用的數(shù)據(jù)處理系統(tǒng)或框架也可能不一樣。這樣導(dǎo)致企業(yè)各部門或不同的系統(tǒng)數(shù)據(jù)相互獨立、隔離,不能實現(xiàn)企業(yè)數(shù)據(jù)真正的互通、互融,使得數(shù)據(jù)的整體價值難以更好的體現(xiàn)。 互聯(lián)網(wǎng)行業(yè)的人一般都聽說過前端和后端(或稱前臺、后臺),中臺是什么?
3、數(shù)據(jù)采集: 數(shù)據(jù)通常來自于企業(yè)內(nèi)部或外部,企業(yè)內(nèi)部數(shù)據(jù)可以直接從系統(tǒng)獲得,外部數(shù)據(jù)則需要購買,或者通過爬蟲等數(shù)據(jù)采集工具采集;
4、數(shù)據(jù)處理: 獲取到的數(shù)據(jù)往往會包含一些干擾數(shù)據(jù)、不完整數(shù)據(jù),因此一般需要對數(shù)據(jù)做相應(yīng)的處理;
5、數(shù)據(jù)建模: 不同的業(yè)務(wù)對數(shù)據(jù)的需求不同,根據(jù)相關(guān)業(yè)務(wù)或戰(zhàn)略需求建立相應(yīng)的數(shù)據(jù)模型,有針對性進(jìn)行主題分析;
6、數(shù)據(jù)分析: 根據(jù)模型中要分析或計算的指標(biāo),采用相應(yīng)的分析方法進(jìn)行數(shù)據(jù)分析,得出目標(biāo)分析結(jié)果;
7、數(shù)據(jù)可視化: 將數(shù)據(jù)分析結(jié)果進(jìn)行可視化展示,使其更加方便業(yè)務(wù)人員或決策者理解。
第一階段:Excel數(shù)據(jù)分析
每一位數(shù)據(jù)分析師都脫離不開Excel。
它是日常工作中最常用的工具,如果不考慮性能和數(shù)據(jù)量,它可以應(yīng)付絕大部分分析工作。雖然現(xiàn)在機(jī)器學(xué)習(xí)滿地走,Excel依舊是無可爭議的第一工具。
對于沒有經(jīng)驗的你,Excel是一款必須熟練的工具。它是日常工作中最常用的工具,如果不考慮性能和數(shù)據(jù)量,它可以應(yīng)付絕大部分分析工作。
第二階段:SQL數(shù)據(jù)庫語言
作為數(shù)據(jù)分析人員,我們首先要知道如何去獲取數(shù)據(jù),其中最常見的就是從關(guān)系型數(shù)據(jù)庫中取數(shù),因此你可以不會R,不會python,但是你不能不會SQL。
DT時代,數(shù)據(jù)正在呈指數(shù)級增長。Excel對十萬條以內(nèi)的數(shù)據(jù)處理起來沒有問題,但是往小處說,但凡產(chǎn)品有一點規(guī)模,數(shù)據(jù)都是百萬起。這時候就需要學(xué)習(xí)數(shù)據(jù)庫。
會在招聘條件中,越來越多的產(chǎn)品和運營崗位,將會SQL作為優(yōu)先的加分項。SQL是數(shù)據(jù)分析的核心技能之一,從Excel到SQL是數(shù)據(jù)處理效率的一大進(jìn)步。
主要了解數(shù)據(jù)庫查詢語言,where,group by,orderby,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的邏輯,時間轉(zhuǎn)換函數(shù)等。
第三階段:數(shù)據(jù)可視化&商業(yè)智能
數(shù)據(jù)可視化能力已經(jīng)越來越成為各崗位的基礎(chǔ)技能。領(lǐng)英的數(shù)據(jù)報告顯示,數(shù)據(jù)可視化技能在歷年年中國最熱門技能中排名第一。
可視化工作幾乎是你正式進(jìn)行數(shù)據(jù)分析的第一步,通過SQL拿到數(shù)據(jù)之后,我們需要使用可視化方法探索和發(fā)現(xiàn)數(shù)據(jù)中的模式規(guī)律。
數(shù)據(jù)分析界有一句經(jīng)典名言,字不如表,表不如圖。實際上除掉數(shù)據(jù)挖掘這類高級分析,不少數(shù)據(jù)分析就是監(jiān)控數(shù)據(jù)和觀察數(shù)據(jù)。
除此此外,數(shù)據(jù)分析的大多時候都是要兜售自己的觀點和結(jié)論的,而兜售的最好方式就是做出觀點清晰數(shù)據(jù)詳實的PPT和報表給老板看
分析思考能力
特意將分析思考的能力放在了數(shù)據(jù)分析之前,那是因為不論是業(yè)務(wù)型還是技術(shù)型,數(shù)據(jù)分析的思維是分析過程中及其重要的一環(huán)。在拿到數(shù)據(jù)之后如何對數(shù)據(jù)進(jìn)行分析,使用哪些方法,用什么樣的流程等等都需要分析和思考的能力。如果沒有這項能力你在拿到數(shù)據(jù)之后腦子中將是一團(tuán)亂麻,特別是面對大量無規(guī)則數(shù)據(jù)時。
團(tuán)隊溝通
數(shù)據(jù)獲取和協(xié)商處理:在獲取和處理數(shù)據(jù)時,需要與技術(shù)團(tuán)隊(如數(shù)據(jù)庫管理員、數(shù)據(jù)工程師等)溝通。如果數(shù)據(jù)分析師需要特定格式的數(shù)據(jù),或者在數(shù)據(jù)提取過程中遇到問題(如數(shù)據(jù)缺失、數(shù)據(jù)格式錯誤等),就需要清晰地向技術(shù)團(tuán)隊表達(dá)問題所在并共同尋找解決方案。例如,數(shù)據(jù)分析師可能需要從海量的日志文件中提取特定時間段的用戶行為數(shù)據(jù),要向技術(shù)人員說明數(shù)據(jù)的篩選條件、時間范圍以及期望的輸出格式等。
算法模型溝通:當(dāng)涉及到復(fù)雜的數(shù)據(jù)分析算法和模型開發(fā)時,要與技術(shù)團(tuán)隊共同探討其可行性和優(yōu)化方向。例如,在構(gòu)建預(yù)測模型時,數(shù)據(jù)分析師和技術(shù)團(tuán)隊需要討論是采用線性回歸模型還是更復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,要從數(shù)據(jù)特點、計算資源、預(yù)測精度要求等多方面進(jìn)行交流。
明確自己的優(yōu)勢與劣勢
知道自己擅長什么和不擅長什么這點也很重要,比如你擅長邏輯推理和分析,不擅長編程和研究,那你就去做偏業(yè)務(wù)方向的數(shù)據(jù)分析,相反你就應(yīng)該去做
數(shù)據(jù)挖掘,因為去做自己不擅長和不感興趣的工作往往是痛苦的,一般結(jié)局也不會特別好。
如果你平時是一個比較感性的人,不喜歡和數(shù)據(jù)打交道,也不喜歡學(xué)習(xí),同時數(shù)理基礎(chǔ)也不太好,我建議你謹(jǐn)慎選擇數(shù)據(jù)分析,因為大概率你會半途而廢,即使勉強(qiáng)堅持著,過程也會比較難受。建議最好能通過SWOT分析。了解自己從事數(shù)據(jù)分析的優(yōu)勢、劣勢、機(jī)會與挑戰(zhàn),這其中具體包括學(xué)歷,專業(yè),年齡,工作經(jīng)驗,性格,愛好,特長等,如果優(yōu)勢大于劣勢,機(jī)會大于挑戰(zhàn),那么你可以毫不猶豫地去準(zhǔn)備從事數(shù)據(jù)分析的工作,如果不是,請你考慮其他工作。