本節書摘來自華章計算機《資料分析實戰:基于excel和spss系列工具的實踐》一書中的第1章,第1.5節,作者 紀賀元,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。
在工作中接觸資料比較多的朋友,由于提高工作效率的需要,或者考慮到職業發展前途,經常會關心一個問題:我怎麼樣成為一個資料分析高手?這種想法非常自然,如同一個下圍棋的人經常會想“我怎麼樣成為圍棋高手”一樣。
根據我個人的了解,要想成為資料分析高手,要做到如下幾個方面。
我教育訓練的課程大概有10多門,不過課程的頻度不同,有的課程一年要上好多遍,而有的課程相對比較冷門,一年也上不了幾次。然後我就發現,那幾個冷門課程,我每次上課之前都要備課,因為有些細節我忘記了。
項目中也是如此,自己寫的系統代碼,隔段時間不看了,就會有點看不懂了,需要靜下心來仔細看一看。
是以,要成為資料分析的高手,第一要旨就是你工作中的資料很多,而且天天要做表、做分析,做得多了,自然熟練了,感覺也有了。
記得賣油翁的那句話吧:無他,唯手熟爾。
“工欲善其事,必先利其器”,這話一點不假,身處資訊時代的我們,掌握(尤其是熟練掌握)一些工具是非常有必要的。
第2章會比較詳細地介紹統計分析工具,以下隻是談談我自己的一些體會。
我曾經碰到過這樣的人,他平時工作用excel,也用vba,根據我對他的了解,他的vba用得一般,基本就是入門的級别吧。他報名去學習matlab,也自學過r,2015年碰到他的時候,他說現在要考慮學tableau。首先,我很贊賞和佩服他的學習精神,畢竟要學這麼多東西,是要耗費很多時間和精力的(包括要花不少錢),但是,我絕對不贊成他的這種風格。要知道,對于一個分析工具的掌握需要長時間的學習和實踐,有人說大部分人隻掌握了excel中5%的功能,我個人基本表示贊同。我使用vba近20年,仍然覺得對vba的很多功能還是知之甚少。再說,如果你熟練地掌握了一種工具,再學其他的也比較容易。
我們需要掌握一個工具組合,一個有效的工具組合可以基本解決你的大部分問題。實際上,我在分析資料時,經常是多種工具一起使用。我會用excel vba表來收集資料,用excel來預處理資料,用excel資料透視表和spss來分析資料,用xlstat來做對應分析和決策樹(因為我覺得xlstat雖然是個小工具,但是它在多重對應分析和決策樹這兩個子產品上做得特别好),然後我會用clementine來處理關聯分析。是以,“組合拳”還是很有必要的。
記得曾經看過一篇文章,寫的是在美國,很多小孩都能編點簡單的程式,有的國小生甚至能夠熟練地掌握雙重循環,也就是說,程式設計這個技巧,起碼在美國,大家沒認為它是一個很高端的技能。
國内的情況則大大不同,個人的感覺是很多企業人員對程式設計都比較害怕,甚至到了恐懼的程度。我曾經在班上問過一些學員,在大學的時候有沒有學過程式設計,有1/3的學員舉手。實際上,現在的大學在大一的基礎課中是有vb和c語言的。不過即使這樣,我仍然覺得很多學員包括學過vb或c語言的學員都不大喜歡或者不大願意去接觸程式設計。
我們的很多學員,還沒有開始程式設計,就已經掉頭撤退了,他們已經把自己歸類到不可能學會程式設計的那個行列中去了!
本書的主旨不是探讨為什麼很多有點程式設計基礎的人不願意程式設計,這裡想說的是,程式設計技能幾乎是資料分析高手的必備技能。如果學會一種程式設計語言将極大地提高資料分析的能力,如果精通的話那實在是太棒了。
試想,人家在跑代碼,而你是手工做資料,這可是天壤之别!資料量大到一定程度,步驟多到一定程度,手工就沒法做了。
做資料分析,不能為了做分析而分析,做資料分析的出發點是業務需求,例如,我們要做商務預測,或者我們要找到有興趣購買我們産品的客戶,是以但凡是資料分析高手,基本上都有兩個特征:一是懂業務,二是會做資料。
曾經有企業上司問我,他們要建一個資料團隊,如何組建?我跟他說,不管你是内部選拔還是外部招聘,建議你團隊裡面一定要有幾個從業務口出來的人,這幾個人懂業務,跟企業其他人員也熟,溝通、交流都友善。後來,我得知,他們的資料團隊有兩個副經理,一個是偏業務的内部人員出身,一個是外部招聘的統計學碩士,我覺得這個設定比較合理。