什麼是資料分析
資料分析其實有個高大上的名字--“Business Intelligence”,簡稱:“BI”,是指将觀察、測量、實驗以及生産活動過程中産生的資料通過統計學等方法做歸納、總結、了解,以得到某項結論,用來發現業務中的問題、驗證某個方向的正确性、業務現狀可視化等等。
資料分析的工作是痛苦的,要從雜亂無章的資料中将某個或者某些核心名額做提煉、歸納、總結,找到某個規律,而且經常得到的結論不足以支撐下一步的動作,勞心勞力最後無果,又要再繼續深挖。專業的資料分析師除了SQL腳本,往往需要很好的數學、統計學、機率論、算法等專業知識的支援。做為一名研發工程師,日常的資料分析往往不需要這麼多專業領域的知識,但比起做編碼工作也是痛苦很多。
為什麼研發要做資料分析
有人說資料分析是BI工程師的事情,但現實情況是BI們往往在做業務方最關心的資料、最關心的問題等方向的分析。你做了某個小日常,要看這個小功能上線後的表現應該是自己的事情;此外資料分析是門複雜的學科,需要無止盡的探索,每個人思考的方向都會不一樣,在開發的角度有開發的思考方式,所謂“行走江湖、技多不壓身”,多做一些,很可能打開新世界的大門。
在我看來,研發做資料分析往往基于以下幾個目的:
講清價值:往往到彙報季,要總結梳理這半年KPI完成的情況。比如你說做了某個功能提效多少,那麼怎麼衡量?開發周期縮短了多少?投入人/日減少了多少?營運使用某個功能,他們用的過程中提效了多少?精确的量化這些數字,最能證明價值。
理清方向:阿裡的開發通常情況都會并行很多事情,通常目标都是多個,事情也是很多。業務需求、技術改造、安全生産、提效等等,這麼多事情排在一起經常會沒有優先級,那麼就看看資料吧,看看哪個最緊迫,哪個優先級最高。
發現問題:目前業務遇到了瓶頸,不知道下一步的發展方向在哪裡,那麼拉出資料看看,看目前的瓶頸是使用者增長還是某項轉化率等,看看做那件事投入産出比最高,收益最大。
加深思考:這部分不用多說,老闆們都是資料敏感的,我們也要不斷向老闆看齊,從資料中發現問題的解法,對業務的了解會越來越深
怎麼做研發角度的資料分析
這部分結合我們拍賣業務“拍下率”的目标來理一下我的分析過程。
▐ 了解問題(目标)
什麼是拍下率?在拍賣的業務中,使用者到最終成交大概會經曆幾個步驟,“浏覽拍品”->“訂閱”商品\對商品“交保證金”->對商品“出價”->獲勝->履約。一旦有使用者對某個商品出了價,該商品就一定會拍下,拍下率就是有出價的商品數量/全部商品數量。公式有了之後,就要開始分析兩個因子,全部商品數量來自于業務方的供給,BD來了多少商品上拍我們做為技術幾乎很難影響(實際情況是我們可以做一些對貨品要求上的指導決策),沒道理BD同學辛辛苦苦談下來的資産到平台無法上拍不是。
那麼我們能做的就是盡量讓有出價的商品數量變大,從轉化漏鬥的角度,我們的核心操作就是要提升浏覽拍品的絕對值,增加後續各個路徑的轉化率,但由于拍品大部分都是大資産,筆單價幾十萬級别,理想中的轉化漏鬥實際操作起來非常複雜。是以我們團隊做了很多的資料分析。
▐ 現狀梳理
公式都已經定義了,資料分析的一步就是把這個公式實作成報表,看看目前這個名額的現狀是怎樣的。
這一步是正常操作,我們很快的做了近兩年的拍下率大盤,但是新的問題又來了,由于拍賣業務的特殊性,大盤建立後,我們發現這個名額的波動特别大,完全沒辦法指導我們後續的動作。于是不得不再做分析。
▐ 由簡入繁
前面的公式知道了拍下率其實可以拆解為兩個因子:有出價商品數量和全部商品數量,那麼就将這兩個名額展開看一下,比如:- 按類目拆分的的出價商品數的情況和全部商品的情況
- 按浏覽資料、訂閱資料、交保資料看哪個因子與出價最相關,中間的轉化漏鬥情況
- 大資産商品的地域資訊很重,那麼我們還要看不同地區的情況
- 當然還要看不同時間的情況,比如春節、國慶等特殊時期或者雙促時,拍下率基本是下跌的
- 此外還要看未拍下的商品與拍下的商品有什麼差別,貨真的不好嗎?比如市場價100萬的房子,起拍價200萬,那麼肯定是拍不下的,價格因素會大大影響拍下率
- 還有從使用者次元去思考,比如拍下房産的使用者他們的購買力情況、在拍賣的行為(首次來拍賣、首次浏覽、訂閱、交保、出價)、是否有複購行為,是否是企業使用者或者投資客等等
前面這些情況其實我們從貨的角度、人的角度、時間、地理位置等等各個因素去入手,盡可能的發現問題,但是我們會發現按這個思路把問題拆解下去,次元是無限的,要适時總結,得出可以指導下一步動作的結論就好。
▐ 歸納、總結
如何做好歸納總結這一步其實比前面的資料分析更重要,我了解最關鍵的點是“相關性”,一旦目前的資料已經和你最初的問呈現較為明顯的正向相關,基本就可以了。
分析拍下率的問題中,我們得到了三個因素相關性很高,我們稱為影響拍下率的三座大山:
批量拍品:拍賣的業務中存在大量的機構一下子發幾百套房子,但最終拍下很少,這類case會造成拍下率極不穩定。一旦這種拍品出現會發現我們站内的流量基本都是不足的,是以我們采用短信、push、外呼等主動觸達手動再加上算法挖掘為這類拍品補足流量。
腰部拍品:我們的拍品結構很複雜,有價格很低的房子(比如1元起拍的、11.11元起拍的等),這種房子我們定義為頭部商品;相反那些和市場價基本持平甚至超出市場價的很多的,基本大機率賣不出去,我們定義為尾部商品;中間的那一些就是腰部商品,分析中發現這部分腰部商品結構變化造成了拍下率波動。(真實的腰部拍品定義其實不光是價格因素,這裡隻是簡單舉例)。
- 是以我們在站内通過流量補足、站外主動觸達的手段進行流量補足,來盡量促成這部分拍品向頭部轉化,最終成交。看拍下率資料時,我們也會将拍品分層次去看。
- 除此之外,上面的流量調控也隻是針對對流量敏感的商品,但是針對特殊商品,比如大額股權、船舶、土地等小衆商品,對流量不敏感,我們會用人工撮合的方式來處理。
- 地理位置:比如同樣的房子,杭州的使用者心智較成熟,對應的杭州的房子就比較好拍下,拍下率就遠比其他地方高。相比某個地區的三四線城市,拍下率就很低,我們在分析問題時,也會不同地區的拍下率分開處理。
- 比如,三四線城市,我們正在模式站外廣告、傳媒廣告、線下服務等多種方式特殊處理。
- 拍下率相對穩定的一二線城市,我們更多在做擴大拍品供給,打造使用者心智等。
▐ 驗證疊代
上面經過歸納總結,我們得到了一些關鍵動作:
站内對腰部商品做流量調控,這塊主要依賴我們導購端的流量調控能力。調控實施時,也要基于頭部商品拍下率不變,然後把過剩的流量向腰部商品傾斜,也做了很多資料工作來也驗證政策的有效性。
站外對批量拍品進行貨找人,然後通過主動觸達的方式進行流量補足,召回的子項目也建設了很多資料報表,來衡量對這部分拍品的貢獻。
最後,除了一些子項目的效果追蹤,我們還要不忘初心,反過來看大盤的拍下率有沒有變化,看看我們最初的問題有沒有得到解決。
總結
總體來講,資料分析就是一個總-分-總的過程:
第一個總是要從總的目标出發,開始拆解、細化
分則是圍繞大目标不斷細分向下,從盡可能多的角度看待問題
第二個總則是适時回歸本心,不能光做了分析而沒有結論
資料分析的道路永無止境,1個問題可以拆出N個名額,N個名額互相聚合又會有N*N個名額,分析過程中又會出現M新個名額……,是以适時做歸納、總結,看看目前結論是否可以支援最初的問題,指導下一步的行動、得出有效結論即可。
回歸到開發視角,做資料分析的前提是要有資料,開發過程中,除了基礎的業務模型設計,還要考慮多記錄一些日志,比如接口耗時、必要的報錯資訊、可輔助資料分析的一部分業務資料、一些關鍵節點的行為日志等等。
最後,多思考為什麼?為什麼我的主管會定某個名額為目标?我所負責的部分對這個目标有哪方面的幫助?團隊中其他人的部分怎麼配合起來共赢,他們的子目标是什麼?站在更高的角度思考這些問題,對業務、資料、技術的了解都會更通透。