天天看點

你會用哪些資料分析方法?

作者:人人都是産品經理
本文的主要内容就是為大家科普資料分析的概念和方法,作者用清晰的“是什麼,為什麼,怎麼做”思路,為讀者提供了一個又一個的方法論,為資料分析小白們帶來了入門級的先進知識。
你會用哪些資料分析方法?

有同學問:陳老師,每次被面試都被問“你使用過哪些資料分析的方法”。結果都感覺答不上來。到底資料分析有什麼方法?為啥我在做資料分析,卻感覺沒什麼方法?今天系統解答一下。

首先,并不是名字帶“分析”倆字的,就是資料分析方法。有很多XX分析,是統計學、運籌學、數學的專業工具,并不直接指向業務問題的答案。當人們在問:”有什麼分析方法”的時候,更多期望聽到一個能給出結論的方法。

是以想回答好這個問題,要回到:資料分析到底解決哪些業務問題上去。

從業務用途上看,資料分析可以解決5大類問題

  1. 是多少(資料描述狀況)
  2. 是什麼(樹立資料标準)
  3. 為什麼(探索問題原因)
  4. 會怎樣(預測業務走勢)
  5. 又如何(綜合判斷狀況)

圍繞每個問題場景,有特定的方法組合(如下圖)

你會用哪些資料分析方法?

一、解決“是多少”的方法

用資料描述狀況,需要建立完善的資料名額體系。建立資料名額體系,則需要梳理清楚資料名額之間的邏輯。資料名額間有兩種基本的邏輯:串行邏輯和并行邏輯,是以衍生出兩種基本的分析方法:漏鬥分析法&名額拆解法。

你會用哪些資料分析方法?

拆解的業務多了,人們發現,某些資料名額可以固定的組合使用,比如:

  • 使用者營運場景:AARRR名額、RFM名額
  • 零售門店場景:人、貨、場名額
  • 商品管理場景:進、銷、存名額

這些也習慣性被稱為:分析模型。但注意,這些都隻是在展示資料。資料+判斷标準,才有分析結論。有關判斷标準的分析,就是:是什麼類問題。

二、解決“是什麼”問題的方法

判斷标準可以很簡單,比如上司的指令、KPI要求、過往同期資料,都能作為标準。這些統稱為:簡單标準。但很多時候,名額走勢是否正常,并無明确的KPI限制,甚至KPI達标,但是走勢奇特,上司們還是會覺得有問題。這時候就需要找其他參照物。是以衍生出一系列分析方法。

比如:

  • 與業務自身規律比較,判斷好壞:生命周期法、自然周期法
  • 與同類型,同期發展的業務比較:同期群分析法
  • 與其他業務個體進行比較:分層分析法

這樣對比,即使隻有1個資料名額,也能得出好壞判斷。如果業務發展違背過往規律,明顯比其他個體更差,則可以判定為:不好。

你會用哪些資料分析方法?

當然,也可以使用2個名額,比如經典的矩陣分析法,通過兩名額交叉+兩名額平均值,分出四類業務,進而得出好壞判斷。

你會用哪些資料分析方法?

如果用更多名額也行,比如常用的Kmean聚類,可以先利用多個名額對業務個體聚類,之後再看各類型之間表現優劣。

以上這些方法,都能将業務的好/壞區分出來,進而在一定程度上輔助判斷。

三、解決“為什麼”問題的方法

“分析下這個問題是什麼原因導緻的……”是常見的要求,這就是“為什麼”問題。解決為什麼問題,有兩大基本思路:

1. 結果推斷

常見的,比如:

  • 結構分析法:通過結構分析,找到問題發生點
  • 标簽分析法:通過打标簽,做個體對比,找到問題原因
  • 相關分析法:通過計算名額相關關系,找到相關名額,再形成假設
  • MECE法:講多個業務假設,按MECE原則合并成分析邏輯,一一驗證

結果推斷,意為問題發生後,用各種資料尋找差異,建立假設。可以把業務口中“我覺得這是XX原因”,抽象成一個資料可驗證的假設,是以适用範圍非常廣。但結果推斷隻是單方面從結果做歸納,有可能有偏頗,還需要實驗驗證。

你會用哪些資料分析方法?

2. 實驗推斷

這些方法更接近傳統統計學的實驗,大部分都要求:

  • 開展資料實驗,驗證假設
  • 設參照組/實驗組,且參照組/實驗組特征相似
  • 區分控制變量、環境變量,重點測控制變量的影響
  • 先有假設,然後通過實驗/分組對比,驗證假設。常見的方法,包括ABtest、DID、PSM、RDD、Uplift等方法。

實驗推斷有統計學依據,計算過程複雜,看起來更量化一些。但是對實驗條件要求太高,比如大促銷類ALL in的業務,比如商品、店鋪這些無法控制環境的業務場景,比如業務員行為、内容傳播等難采集資料的領域,都很難用。

理想的狀态,肯定是兩者結合,事實-假設-驗證,不斷循環,接近真相。但現實中有很多條件制約。導緻我們隻能從一個角度切入,慢慢靠近真相。

四、解決“會怎樣”問題的方法

預測類問題,是所有人都感興趣的話題,也是統計學/算法最有可能發揮作用的地方。唯一限制方法使用的,是:到底有多少資料&業務人員要不要參與。

如果業務人員堅持參與預測過程,就隻能用業務假設法或者滾動預測法,這些方法把影響結果的參數都列出來,友善業務人員拍腦袋,也能幫他們清晰:我要做多少。

你會用哪些資料分析方法?

如果業務人員不參與,則視資料量的多少。資料少,則使用時間序列預測,資料多,且有影響結果的原因資料,則可以用諸如回歸模型一類算法預測。

你會用哪些資料分析方法?

五、解決“又如何”問題的方法

綜合評估與配置設定問題,統稱“又如何”問題。這是決策的最後一步,決定是否對業務做動作,做多大動作。有些簡單的評估是很容易的,比如銷售簽了生死狀,達不成業績目标就炒鱿魚。

但大部分情況,評估很複雜,要考慮方方面面。這裡最大的差別,在于要不要考慮上司的主觀意見。如果要,果斷使用主觀評分法!滿足上司的打分欲是第一位的。如果不要,再考慮使用有監督的機器學習算法,或者因子分析法,DEA法(求的是相對效率)等客觀方法。

至于:做多少,誰來做。就是更複雜的問題了。想做好配置設定,得先把前邊幾步分析做完,對每個業務線基礎能力有充分認識,才好下判斷。這裡,線性規劃的方法,可以用來做支援。

你會用哪些資料分析方法?

六、為什麼感覺沒用上方法?

綜上可見,資料分析的方法是非常多的。但為什麼很多同學感覺自己沒用上方法呢?因為每種方法是和業務場景、上司風格、資料品質、息息相關的。

比如因果推斷算法大多基于分組測試展開,而實際業務中,很多因果分析是事後再查原因,也不給二次實驗的機會。

比如很多公司的配置設定方案,根本就是上司拍腦袋,一言堂,根本沒機會讓分析師用算法。

比如預測問題,很多公司根本沒有足夠資料積累,隻有一條銷售資料,那撐死了也隻能用時間序列法。

這種理想與現實的差距,讓很多同學很痛苦。一方面不清楚到底這些方法該如何用,另一方面不了解,自己該如何應對業務需求。面試和工作都很吃力。

專欄作家

接地氣的陳老師,微信公衆号:接地氣的陳老師,人人都是産品經理專欄作家。資深咨詢顧問,在網際網路,金融,快消,零售,耐用,美容等15個行業有豐富資料相關經驗。

本文原創釋出于人人都是産品經理。未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協定。

該文觀點僅代表作者本人,人人都是産品經理平台僅提供資訊存儲空間服務。

繼續閱讀