最近一段時間幾乎每天都會收到有關數據操作及分析的求助,有的很容易就解決了,但有的費了半天勁卻不能很好地解決。究其原因主要存在以下幾個方面的問題:
1.數據格式不規(guī)范,甚至不正確,需要耗費大量的時間去轉換;
2.數據來源太亂,無法很好地整合在一起;或者說以現有的數據,無法支撐起所期望達成的需求;
3.數據分析思路亂或沒思路,總想隔空求解或者以目標反向操控數據;
4.數據基本功薄弱,EXCEL或其它數據工具基本操作不熟練。本來一個函
數或幾次點選可以解決的問題,愣是不知所措,以為碰到大難題。
鑒于以上存在的問題,而且很可能是普遍性問題,今天想跟大家聊一聊數據分析的基本流程和勝任力的話題。這個話題聊完,以上幾個問題也就都會涉及到了。
數據分析的核心流程包含以下幾個基本步驟(見下圖):數據的獲取—數據的整理—數據的分析—數據的呈現。當然,數據獲取之前我們應該進行業(yè)務問題定義和數據變量的定義,數據呈現之后應該還有報告撰寫及匯報演示等環(huán)節(jié),但這些都在今天的話題之外。
數據的獲?。涸谒枰臄祿兞慷x清楚之后,數據分析的首要環(huán)節(jié)是數據的獲取。我們的數據可能會來自云服務、各種數據庫、各種格式的獨立數據文件或者某些專用系統(tǒng)等一個或多個源頭。首先是數據獲取的方式問題,無論是主動提取還是被動推送,能否實現自動化或者半自動化,讓數據能夠按照事先定義的內容、時間間隔、輸出格式、存儲位置等規(guī)范把數據導入我們日常的數據處理與分析工具(對于大多數人來講其實就是EXCEL)。如果實現了這一步,那么我們在數據處理的效率和數據的時效性上就會有非常明顯的提升。也就是一旦源頭和規(guī)范設定,你就會源源不斷地得到所需的最新數據。在這一步只靠復制粘貼是解決不了問題的。這一步的主要操作功能都在EXCEL的數據菜單”下的獲取外部數據”功能模塊里面。
數據的整理:這一步實際上主要是傳統(tǒng)數據處理中ETL的概念,包括了數據的提取、清理、轉換、整合與加載的概念。所獲取到的原始數據往往是不能夠拿過來直接做分析的,因為這些數據很可能是零散的、格式混亂的、含有缺失的甚至是內容沖突的。因此,我們首先要從原始數據里提取出我們所需要的內容,并根據業(yè)務及數據本身的邏輯與相關性把來自不同源頭的數據組合在一起。然后對數據進行一系列格式修正、缺失值處理、極值與異常值處理、冗余剔除、變量衍生等必要的操作,最后形成完整、規(guī)范、干凈的數據集,加載到工作表或數據模型中待分析。這一步的諸多操作步驟需要分析人員熟練掌握EXCEL或其它專業(yè)數據分析工具的常用操作技巧以及功能模塊(常用篩選、查詢、提取、對比、轉換等內置功能以及函數、透視表、圖表、分析工具庫等)。對于2010版以后的EXCEL版本來說,還有一個神器,Power Query。
數據的分析:毋庸置疑,這是最關鍵的一步。但要想在這一步產生高價值的業(yè)務洞察離不開兩個基本功—業(yè)務理解和分析功底。對業(yè)務的透徹理解是分析思路的主要來源,而深厚的分析功底則是透過數據看清業(yè)務本質的必備要素。應該把哪些數據放在一起看,應該看數據的什么特征、什么關系,應該采取什么樣的分析驗證方法,應該怎樣解讀分析呈現的結果等這些關鍵工作都離不開以上兩項基本功的有機融合。所謂面對同樣的數據有的人一眼就能判斷問題所在,而有的人茫茫然無從下手的差距就在這里。這一步沒有捷徑,多了解業(yè)務,多動手,多總結,多積累,慢慢提升。毫不夸張地說,EXCEL其實可以滿足客服中心日常運營數據分析80%以上的需求。而我們大部分人都沒有用起來,用好它。
數據的呈現:一圖勝千言。很少有人喜歡看一篇篇密密麻麻的數據。把數據以圖表或其它輔助可視化手段呈現出來,才是大家樂于接受的形式。所以圖表的基本功又是必修的。其實EXCEL的圖表功能已經很豐富了,大部分人缺的其實是創(chuàng)意和復合圖表的整合能力。當然,如果你能夠掌握PowerBI、SPSS、R、Python等軟件或D3.js等交互式圖表代碼的話更是錦上添花。另外,干凈、整潔、樣式清晰的表格本身也是一種可視化手段,不一定非要把所有的數據都轉化成圖表,為了可視化而可視化。
好好審視一下目前數據分析與報表工作的這四個基本點,哪些做到了,哪些沒做到,甚至沒想到,然后列一個計劃,慢慢推進與完善。數據獲取自動化、基本分析模板化、數據呈現可視化、業(yè)務洞察系統(tǒng)化是數據崗人的工作基礎,亦或是,目標!