天天看點

如何建立資料分析的思維架構

曾經有人問過我,什麼是資料分析思維?如果分析思維是一種結構化的展現,那麼資料分析思維在它的基礎上再加一個準則:

不是我覺得,而是資料證明

這是一道分水嶺,“我覺得”是一種直覺化經驗化的思維,工作不可能處處依賴自己的直覺,公司發展更不可能依賴于此。資料證明則是資料分析的最直接展現,它依托于資料導向型的思維,而不是技巧,前者是指導,後者隻是應用。

作為個人,應該如何建立資料分析思維呢?

建立你的名額體系

在我們談論名額之前,先将時間倒推幾十年,現代管理學之父彼得·德魯克說過一句很經典的話:

如果你不能衡量它,那麼你就不能有效增長它。

所謂衡量,就是需要統一标準來定義和評價業務。這個标準就是名額。假設隔壁老王開了一家水果鋪子,你問他每天生意怎麼樣,他可以回答賣的不錯,很好,最近不景氣。這些都是很虛的詞,因為他認為賣的不錯也許是賣了50個,而你認為的賣的不錯,是賣了100。

這就是“我覺得”造成的認知陷阱。将案例放到公司時,會遇到更多的問題:若有一位營運和你說,産品表現不錯,因為每天都有很多人評價和稱贊,還給你看了幾個截圖。而另外一位營運說,産品有些問題,推的活動商品賣的不好,你應該相信誰呢?

其實誰都很難相信,這些衆口異詞的判斷都是因為缺乏資料分析思維造成的。

老王想要描述生意,他應該使用銷量,這就是他的名額,網際網路想要描述産品,也應該使用活躍率、使用率、轉化率等名額。

如果你不能用名額描述業務,那麼你就不能有效增長它。

了解和使用名額是資料分析思維的第一步,接下來你需要建立名額體系,孤立的名額發揮不出資料的價值。和分析思維一樣,名額也能結構化,也應該用結構化。

我們看一下網際網路的産品,一個使用者從開始使用到離開,都會經曆這些環節步驟。電商app還是内容平台,都是雷同的。想一想,你會需要用到哪些名額?

如何建立資料分析的思維架構

而下面這張圖,解釋了什麼是名額化,這就是有無資料分析思維的差異,也是典型的資料化營運,有空可以再深入講這塊。

如何建立資料分析的思維架構

名額體系沒有放之四海而皆準的模闆,不同業務形态有不同的名額體系。移動app和網站不一樣,saas和電子商務不一樣,低頻消費和高頻消費不一樣。好比一款婚慶相關的app,不需要考慮複購率名額;網際網路金融,必須要風控名額;電子商務,賣家和買家的名額各不一樣。

這些需要不同行業經驗和業務知識去學習掌握,那有沒有通用的技巧和注意事項呢?

好名額與壞名額

不是所有的名額都是好的。這是初出茅廬者常犯的錯誤。我們繼續回到老王的水果鋪子,來思考一下,銷量這個名額究竟是不是好的?

最近物價上漲,老王順應調高了水果價格,又不敢漲的提高,雖然水果銷量沒有大變化,但老王發現一個月下來沒賺多少,私房錢都不夠存。

老王這個月的各類水果銷量有2000,但最後還是虧本了,仔細研究後發現,雖然銷量高,但是水果庫存也高,每個月都有幾百機關的水果滞銷最後過期虧本。

這兩個例子都能說明隻看銷量是一件多不靠譜的事情。銷量是一個衡量名額,但不是好名額。老王這種個體經營戶,應該以水果鋪子的利潤為核心要素。

好名額應該是核心驅動名額。雖然名額很重要,但是有些名額需要更重要。就像銷量和利潤,使用者數和活躍使用者數,後者都比前者重要。

核心名額不隻是寫在周報的數字,而是整個營運團隊、産品團隊乃至研發團隊都統一努力的目标。

核心驅動名額和公司發展關聯,是公司在一個階段内的重點方向。記住是一個階段,不同時期的核心驅動名額不一樣。不同業務的核心驅動名額也不一樣。

網際網路公司常見的核心名額是使用者數和活躍率,使用者數代表市場的體量和占有,活躍率代表産品的健康度,但這是發展階段的核心名額。在産品1.0期間,我們應把注意力放到打磨産品上,在大推廣前提高産品品質,這時留存率是一個核心名額。而在有一定使用者基數的産品後期,商業化比活躍重要,我們會關注錢相關的名額,比如廣告點選率、利潤率等。

核心驅動名額一般是公司整體的目标,若從個人的崗位職責看,也可以找到自己的核心名額。比如内容營運可以關注閱讀數和閱讀時長。

核心驅動名額一定能給公司和個人帶來最大優勢和利益,記得二八法則麼?20%的名額一定能帶來80%的效果,這20%的名額就是核心。

另外一方面,好的名額還有一個特性,它應該是比率或者比例。

拿活躍使用者數說明就懂了,我們活躍使用者有10萬,這能說明什麼呢?這說明不了什麼。如果産品本身有千萬級别的注冊使用者,那麼10萬使用者說明非常不健康,産品在衰退期。如果産品隻擁有四五十萬使用者,那麼說明産品的粘性很高。

正因為單純的活躍使用者數沒有多大意義,是以營運和産品會更關注活躍率。這個名額就是一個比率,将活躍使用者數除以總使用者數所得。是以在設立名額時,我們都盡量想它能不能是比率。

壞名額有哪些呢?

其一是虛榮名額,它沒有任何的實際意義。

産品在應用商店有幾十萬的曝光量,有意義嗎?沒有,我需要的是實際下載下傳。下載下傳了意義大嗎?也不大,我希望使用者注冊成功。曝光量和下載下傳量都是虛榮名額,隻是虛榮程度不一樣。

新媒體都追求微信公衆号閱讀數,如果靠閱讀數做廣告,那麼閱讀數有意義,如果靠圖文賣商品,那麼更應該關注轉化率和商品銷量,畢竟一個誇張的标題就能帶來很高的閱讀量,此時的閱讀量是虛榮名額。可惜很多老闆還是孜孜不倦的追求10w+,哪怕刷量。

虛榮名額是沒有意義的名額,往往它會很好看,能夠粉飾營運和産品的工作績效,但我們要避免使用。

第二個壞名額是後驗性名額,它往往隻能反應已經發生的事情。

比如我有一個流失使用者的定義:三個月沒有打開app就算做流失。那麼營運每天統計的流失使用者數,都是很久沒有打開過的,以時效性看,已經發生很久了,也很難通過措施挽回。我知道曾經因為某個不好的營運手段傷害了使用者,可是還有用嗎?

活動營運的roi(投資回報率)也是後驗性名額,一個活動付出成本後才能知道其收益。可是成本已經支出,活動的好與壞也注定了。活動周期長,還能有調整餘地。活動短期的話,這名額隻能用作複盤,但不能驅動業務。

第三個壞名額是複雜性名額,它将資料分析陷于一堆名額造成的陷阱中。

名額能細分和拆解,比如活躍率可以細分成日活躍率、周活躍率、月活躍率、老使用者活躍率等。資料分析應該根據具體的情況選擇名額,如果是天氣類工具,可以選擇日活躍率,如果是社交app,可以選擇周活躍率,更低頻的産品則是月活躍率。

每個産品都有适合它的幾個名額,不要一股腦的裝一堆名額上去,當你準備了二三十個名額用于分析,會發現無從下手。

名額結構

既然名額太多太複雜不好,那麼應該如何正确的選擇名額呢?

和分析思維的金字塔結構一樣,名額也有固有結構,呈現樹狀。名額結構的建構核心是以業務流程為思路,以結構為導向。

假設你是内容營運,需要對現有的業務做一個分析,提高内容相關資料,你會怎麼做呢?

我們把金字塔思維轉換一下,就成了資料分析方法了。

從内容營運的流程開始,它是:内容收集—内容編輯釋出—使用者浏覽—使用者點選—使用者閱讀—使用者評論或轉發—繼續下一篇浏覽。

這是一個标準的流程,每個流程都有名額可以建立。内容收集可以建立熱點指數,看哪一篇内容比較火。使用者浏覽使用者點選則是标準的pv和uv統計,使用者閱讀是閱讀時長。

如何建立資料分析的思維架構

  從流程的角度搭建名額架構,可以全面的囊括使用者相關資料,無有遺漏。

這套架構列舉的名額,依舊要遵循名額原則:需要有核心驅動名額。移除虛榮名額,适當的進行删減,不要為添加名額而添加名額。

次元分析法

當你有了名額,可以着手進行分析,資料分析大體可以分三類,第一類是利用次元分析資料,第二類是使用統計學知識如資料分布假設檢驗,最後一類是使用機器學習。我們先了解一下次元分析法。

次元是描述對象的參數,在具體分析中,我們可以把它認為是分析事物的角度。銷量是一種角度、活躍率是一種角度,時間也是一種角度,是以它們都能算次元。

當我們有了次元後,就能夠通過不同的次元組合,形成資料模型。資料模型不是一個高深的概念,它就是一個資料立方體。

如何建立資料分析的思維架構

上圖就是三個次元組成的資料模型/資料立方體。分别是産品類型、時間、地區。我們既能獲得電子産品在上海地區的2010二季度的銷量,也能知道書籍在江蘇地區的2010一季度銷量。

資料模型将複雜的資料以結構化的形式有序的組織起來。我們之前談到的名額,都可以作為次元使用。下面是範例:

将使用者類型、活躍度、時間三個次元組合,觀察不同使用者群體在産品上的使用情況,是否a群體使用的時長更明顯?将商品類型、訂單金額、地區三個次元組合,觀察不同地區的不同商品是否存在銷量差異?

資料模型可以從不同的角度和層面來觀察資料,這樣提高了分析的靈活性,滿足不同的分析需求、這個過程叫做olap(聯機分析處理)。當然它涉及到更複雜的資料模組化和資料倉庫等,我們不用詳細知道。

資料模型還有幾種常見的技巧、叫做鑽取、上卷、切片。

選取就是将次元繼續細分。比如浙江省細分成杭州市、溫州市、甯波市等,2010年一季度變成1月、2月、3月。上卷則是鑽取的相反概念,将次元聚合,比如浙江、上海、江蘇聚合成浙江滬次元。切片是選中特定的次元,比如隻選上海次元、或者隻選2010年一季度次元。因為資料立方體是多元的,但我們觀察和比較資料隻能在二維、即表格中進行。

如何建立資料分析的思維架構

上圖的樹狀結構代表鑽取(source和time的細分),然後通過對route的air切片獲得具體資料。

聰明的你可能已經想到,我們常用的資料透視表就是一種次元分析,将需要分析的次元放到行列組合進行求和、計數、平均值等計算。放一張曾經用到的案例圖檔:用城市次元和工作年限次元,計算平均工資。

如何建立資料分析的思維架構

  除了excel、bi、r、python都能用次元分析法。bi是相對最簡便的。

談到次元法,想要強調的是分析的核心思維之一:對比,不同次元的對比,這大概是對新人快速提高的最佳捷徑之一。比如過去和現在的時間趨勢對比,比如不同地區次元的對比,比如産品類型的差別對比,比如不同使用者的群體對比。單一的資料沒有分析意義,隻有多個資料組合才能發揮出資料的最大價值。

我想要分析公司的利潤,利潤 = 銷售額 – 成本。那麼找出銷售額涉及的名額/次元,比如産品類型、地區、使用者群體等,通過不斷的組合和拆解,找出有問題或者表現良好的原因。成本也是同理。

這就是正确的資料分析思維。總結一下吧:我們通過業務建立和篩選出名額,将名額作為次元,利用次元進行分析。

名額和次元有什麼差別?

次元是說明和觀察事物的角度,名額是衡量資料的标準。次元是一個更大的範圍,不隻是資料,比如時間次元和城市次元,我們就無法用名額表示,而名額(留存率、跳出率、浏覽時間等)卻可以成為次元。通俗了解:次元>名額。

到這裡,大家已經有一個資料分析的思維架構了。之是以是架構,因為還缺少具體的技巧,比如如何驗證某一個次元是影響資料的關鍵,比如如何用機器學習提高業務,這些涉及到資料和統計學知識,以後再講解。

這裡我想強調,資料分析并不是一個結果,隻是過程。還記得“如果你不能衡量它,那麼你就不能有效增長它”這句話嗎?資料分析的最終目的就是增長業務。如果資料分析需要績效名額,一定不會是分析的對錯,而是最終資料提升的結果。

資料分析是需要回報的,當我分析出某項要素左右業務結果,那麼就去驗證它。告訴營運和産品人員,看看改進後的資料怎麼樣,一切以結果為準。如果結果并沒有改善,那麼就應該反思分析過程了。

這也是資料分析的要素,結果作導向。分析若隻是當一份報告呈現上去,後續沒有任何跟進、改進的措施,那麼資料分析等與零。

業務指導資料,資料驅動業務。這才是不二法門。

案例

你是淘寶的資料分析師,現在需要你預估雙十一的銷量,你不能獲得雙十一當天和之前的所有資料。隻能獲得11月12日開始的資料,你應該如何預估?

因為是開放題,是以沒有固定答案。

大家的回答分為兩類:

一類是通過後續雙十一的銷量,判斷16年,缺點是需要等一年,優點是簡單到不像話。二類是通過11月12日之後的銷量資料,往前預估,期間會考慮一些權重。缺點是雙十一屬于波峰,預估難道大,優點是可操作性好。

因為題目主要看的是分析思維,目的是找出可能的思路,是以有沒有其他的方法呢?

我們嘗試把思維放開,因為銷量能反應商品,有沒有其他次元?我們可能會想到:退換貨率、和商品評價率。因為雙十一的商品隻能在12日後退換貨和收貨後評價,我們就能根據這兩個名額平日的平均比率,以及雙十一商品的後續退換和評價總數,預估賣出總量。退換貨率肯定會虛高一些(畢竟雙十一退貨不少),那麼商品評價率更準确。

還有其他方法麼?當然有,比如會有不少人用螞蟻花呗支付雙十一,那麼後續還款的比率能不能預估?

如果再将思路放開呢?雖然我不知道淘寶當天的資料,但是可以尋求外部資料,比如京東,京東的雙十一銷量是多少,是平時的多少倍,那麼就用這個倍數去預估淘寶的。

整體的分析結構就分為:

外部資料:

京東等其他平台雙十一銷量

内部資料:

商品資料:商品評價率、退換貨率、商品銷量支付資料:螞蟻花呗支付比率等

本文轉自d1net(轉載)

繼續閱讀