天天看點

友盟+洞察:疫情期資料圖表背後的七個方法、三駕馬車與一個工具

作者:友盟+資深資料分析師 相峥、阿裡巴巴資料及産品部專家 徐珊

疫(zhái)情(jiā)期間,資料分析領域湧現出很多民間高手,資料玩家各顯神通,或通過仿真程式調參,模拟病毒傳播,強調不要出門對控制傳播的重要貢獻;或用自然語言處理工具+詞雲,直覺展示每日新聞熱詞的演進變化,或現場教學如何爬取網站上的實時病例資料,用作進一步分析。

這些資料模組化能力、資料開發技術固然是非常可貴,但是我們也發現,人人都能上手的、統計性、描述性的資料分析,同樣能發揮出巨大的洞察作用和價值。

資料分析的七個方法

早在1月21号,大衆對疫情的關注度剛開始爬升的時候,有公衆号把各省市病例資料和往年春運遷徙資料做了一個“略顯粗糙”的相關性分析,根據初步驗證的正相關關系指出,湖北省内一些城市和武漢來往密切,疫情狀态可能被低估,湖北省外的重點城市要加強機場或鐵路方面的預警。這些分析就充分運用到了趨勢監測、橫向對比、次元拆解等來判斷的。

友盟+洞察:疫情期資料圖表背後的七個方法、三駕馬車與一個工具

如在科普号“回形針”的視訊中,這樣一個資料推導小環節令人印象深刻。

⁃首先,作者認為,湖北省内外的疫情發展狀況差異很大,湖北省内的确診診斷工作壓力較大,很可能在數字上有滞後,是以要将湖北和非湖北資料“拆分來看”。

⁃下一步,他認為用總病死人數除以總确診人數得到的病死率,是不準确的,快速增加的确診病例數(分母)會稀釋這個百分比,于是選擇采取盡可能接近“同期群”的方式來處理。

 ⁃進而,他依據當時文獻,得知報告确診到報告死亡的平均時間是8天,那麼最近3天的新增死亡病例大機率來自8天前确診的那些新增病例,在這樣一個“同期群”當中,得到湖北省外病死率在1.1%左右的,如果暫且認為湖北省内病死率也在相近的水準,那麼反除可得到上萬人的湖北省内感染人數。

 ⁃根據現在的資訊,湖北省内的病死率會比其他地區高一些,是以這個計算結果可能是大幾千這個水準,這與後續疾控中心披露的資料非常接近,而作者精巧的分析得益于對資料進行合理的“次元拆分”和“同期群”思路的應用。

友盟+洞察:疫情期資料圖表背後的七個方法、三駕馬車與一個工具

還有我們每天會關注的疫情資料報表。以丁香園為例,丁香園出品的資料報表,用公衆都能了解的樸素資料分析,細緻解讀國家和各地衛健委公布的疫情數字,幫助大家提高對疫情的正确認知。它善于:

-不靠肉眼看趨勢,用環比量化增長率

-針對資料波動(如新增确診一日暴增一萬,病死率降低後又逐漸走高),有理有據給予說明

-對比SARS、MERS、H7N9等重大疫情的相關資料,認識本次疫情特征

-将關鍵名額按省份/城市拆分,結論更清晰明了

-除了宏觀名額,就特殊群體感染情況(如老年人、醫務人員)做詳細分析

-確定名額計算與分析解讀的專業性,及時指正市面上流傳的錯誤圖表

友盟+洞察:疫情期資料圖表背後的七個方法、三駕馬車與一個工具

不難發現,我們每天看到的優秀資料解讀背後蘊含着資料分析的七個方法:

  • 趨勢監測:名額定義正确,曆史口徑一緻
  • 橫向對比:參照對象可比,廣泛收集資料
  • 次元拆解:次元拆分合理,結論指導行動
  • 過程拆解:業務邏輯清晰,名額表征轉化
  • 因素拆解:鋪展相關因素,資料掌握全貌
  • 分群洞察:分群不重不漏,圈人深度描摹
  • 個案細查:采集最細顆粒,多源資料關聯

三駕馬車 産出高價值資料分析

現在已經是2月末,大部分人已陸續複工,那麼回到我們自己的業務上,如何更好的做好資料監測呢?

資料分析光有思路還遠遠不夠,對具體業務的了解、資料采集的品質、分析工具的靈活是讓資料分析高效率地産出價值的三駕馬車。有了業務了解,才能提出合适的問題、規劃資料需求,在采集上就盡量確定全面、口徑一緻、顆粒度滿足拆分需求,到了分析環節的時候,有靈活的工具來實作各種折騰資料的想法,再有業務了解去加持資料的解讀,這樣才是真正能發揮價值的資料分析工作。

友盟+洞察:疫情期資料圖表背後的七個方法、三駕馬車與一個工具

首先,業務了解和資料采集是資料分析、資料化營運非常重要的前提條件,名額體系就相當于是二者之間的重要橋梁,也是很重要的一個落地産物和載體。如果是資料相關的崗位,強烈建議大家去牽頭了解各個業務方、甚至是管理層,他們的業務目标是什麼,他們想要看資料是要回答什麼樣的問題,進而避免成為一個被動的、沒有靈魂的SQL Boy。

如果是産品、營運等等業務崗,對這個問題的再度思考也不為過,雖然“核心名額 = 業務階段 * 行業特點 * 企業戰略”,但是前兩者屬于一般性的規律,同一個行業、同一個發展階段的企業,也會因為商業模式、優勢、發展側重的不同,量身定制核心名額,是以,“企業戰略”一定程度上淩駕于前兩個因素之上,不僅是一個監測作用,更是一個指引,代表了戰略決策、業務目标的方向。

友盟+洞察:疫情期資料圖表背後的七個方法、三駕馬車與一個工具

接下來,明确了核心名額之後,日常需要用到的名額應做好分級分類,不僅有利于資料的管理和使用,也能全面規範地對埋點工作提出需求,確定采集的準确和連貫。大體上遵從戰略管理層面的核心名額、業務線層面的子名額、業務執行層面的過程名額的原則,具體拆解沒有嚴格的一定之規,幾個常見的方法有:

● 類似杜邦分解的樹狀結構,名額之間盡量保持明确的公式關系

● 使用者生命周期*分析主體,借助分析視角的不同,沉澱相應的次元搭配

● 再或者,直接依照業務線/團隊職責劃分,更加友善需求的收集

一個工具 助你資料分析降本提效

工欲善其事,必先利其器,為了幫助大家在資料分析這件事情上能夠降本提效,友盟+全新釋出了U-DOP資料開放平台。

友盟+洞察:疫情期資料圖表背後的七個方法、三駕馬車與一個工具

其一,把SDK為大家規範采集的多端資料,一鍵返還到客戶自有雲空間,保障大家能夠在最細顆粒度、最自由地進行拆分和資料關聯。同時我們也根據多年服務開發者的經驗,預置了一些常用名額,提前計算好,不用事事都要從最底層開始處理和計算,避免一些麻煩和錯誤。

友盟+洞察:疫情期資料圖表背後的七個方法、三駕馬車與一個工具

(個體明細、預置名額資料,一鍵返還至客戶自有雲空間)

其二,開發者可能習慣于U-App這樣的移動統計分析套件,突然間得到了最大的靈活性,可能反而不知道怎麼上手了,我們也希望盡量能幫大家扶上馬 送一程,在DOP中不斷上新主題分析模闆,把我們在各個場景各個行業的分析思路固化下來。一方面輔助大家了解我們返還的資料是什麼,可以怎麼使用,另一方面給到大家示意,可以照貓畫虎,熟悉上手我們的分析平台如何使用。

友盟+洞察:疫情期資料圖表背後的七個方法、三駕馬車與一個工具

(預置模闆,及其背後的儀表闆“托拉拽”編輯界面)

友盟+洞察:疫情期資料圖表背後的七個方法、三駕馬車與一個工具

(資料集可編輯界面,調整資料格式、新增計算字段、關聯其他資料表等等)

其三,大家各自的業務一定是有自身的特點的,不可能靠模闆走天下,大家的資料也遠遠不僅是App的行為資料,一定也是多個資料源。在這樣的背景下, DOP深度整合了阿裡雲的相關産品,在資料存儲、計算、BI工具方面無縫銜接,給到大家資料融合、自助分析的能力,更加順暢一體化的完成資料靈活分析。

作為DOP的重要組成部分,QuickBI承載着自助分析場景下的資料加工、分析與可視化等工作。到底怎樣完成一次資料分析呢?簡單歸結起來就是“四步走”,如圖所示:

友盟+洞察:疫情期資料圖表背後的七個方法、三駕馬車與一個工具

首先,資料擷取。除了友盟+将采集的行為資料自動投遞至雲資料庫,Quick BI作為阿裡雲上的官方BI産品,能夠無縫內建雲上資料:支援雲資料庫、關系型資料庫、Hadoop、本地檔案等,和阿裡雲資料庫無縫對接。如前面介紹過的,友盟+提供的資料原料可細至個體、會話顆粒度,是以滿足不同層面的資料拆分或關聯,例如通過使用者id,将行為資料和交易、CRM資料打通,或通過管道名稱,将管道拉新的留存率和該管道使用者的ARPU資料拉通,得出LTV。

其次,通過建立資料集來資料處理。Quick BI即保留了傳統的SQL方式完成資料加工和處理,也支援通過建立資料集用互動式方式完成資料的加工,比如表關聯、重命名、建立字段、過濾等。

最重要的,有了資料,開始拖拽分析。Quick BI具備豐富的資料可視化能力:将資料字段拖拽至次元、度量中,可視化圖表元件瞬間生成,近40種可視化圖表任你挑選,滿足各種報表場景,同時支援制作線上電子表格和快速搭建資料門戶,輕松完成資料分析。

最後,分析報表釋出分享。一端配置,多端支援,資料需求方随時随地檢視報表内容。報表制作者還可以配置閱覽者的資料檢視或編輯權限,不必擔心看版被誤操作或資料權限無法管理的問題。

【擴充學習】阿裡做資料分析的三大意義與四大痛點

資料分析的三大意義:

一,資料豐富知識體系。通過資料去發現資料背後的知識,提煉出推動業務發展的決策。

二,資料服務生産。我們有資料,其實是休眠的,需要利用它服務沉默的産品和客戶。

三,就是資料實作商業價值。通過資料分析和挖掘做到控制風險、提升效率,增加收入,發現新的商業模式。

在過去阿裡資料驅動業務的過程中,遇到的四大痛點:

一,業務發展快。需求多但人少,而且經常碰到需求特别多的時候但是時間比較緊。

二,資料響應流程長且不統一。需求需要不同角色的多輪溝通、資料處理過程無法标準化且技術人員對資料沉澱過少。

三,資料本地化嚴重。正常的資料分析我們習慣用本地的Excel,但是這樣會帶來一個問題,資料都存在Excel如果人走了怎麼辦,會導緻資料業務從零開始;而且本地化查詢,資料安全不可控。

四,專業人才的緊缺。很多的企業可能幾百個人,但是分析師隻有少數幾個,基本上都是用來服務CEO或者是CTO的資料分析需求。 很多資料同學根本無法深紮到資料分析更深的領域。