天天看點

阿裡系資料技術專家4000字資料智能平台搭建實戰筆記背景疫情後的機會點:什麼是資料智能平台面臨的挑戰體系介紹标準化篇打通篇标簽篇智能篇:規劃和感想

簡介: 2020年注定是不同尋常的,突如其來的疫情按下了人們生活的暫停鍵。對于使用者激增的App而言有喜有憂,如何快速沉澱資料資産,因為疫情是脈沖式的需求,等疫情結束之後,如何把這些激增的使用者轉化為留存是很大的挑戰。對于非利好的App,如何讓資料成為護城河。回答這兩個問題,資料智能平台的建設尤其重要。

背景

從友盟+公開的移動網際網路資料報告來看,疫情期間移動網際網路裝置活躍度穩步提升。其中遊戲行業增幅15%,是2019年的2倍;影視增幅8%,是去年的3倍左右;辦公通訊上漲明顯,增幅150%,網上藥店活躍裝置增幅由負轉正,增幅61%;旅遊與汽車的降幅是去年的3-4倍,分别下跌55%及29%。

疫情後的機會點:

1.拉新變留存。對于使用者激增的App而言有喜有憂,因為疫情是一個脈沖式的需求,等疫情結束之後,如何把這些激增的使用者轉化為留存是一個很大的挑戰。實時化的資料資産的沉澱成為挑戰。這時候需要修煉好資料的内功,重視資料資産的沉澱,營運好自己的私域資料池。

2.智能化營運。有的資料的底料,我們可以更加的進行精細化的一些營運。比如分層營運,智能營銷,實作業務的資料化,并且讓資料指導業務的發展提供前提。

3.練好資料的内功。建設資料智能平台。資料也是資産,資料智能平台的建設,好比把礦石煉成98号的汽油,再通過清潔的能源向業務不斷賦能的過程。

什麼是資料智能平台

資料智能研發平台,是基于資料基礎能力,打造專業、高效、安全的一站式智能研發平台。支援實時與離線資料內建、開發運維、工作流排程、資料品質、資料安全的全鍊路資料管理,滿足資料治理、資料血緣、資料品質、安全管控,标簽應用的需求。

面臨的挑戰

挑戰主要集中在4個方面,從算力、資料、算法以及業務:

  1. 基礎設施的建設不是一觸而就的,需要大量的人力物力财力。主要是機房、機架、網絡、帶寬。
  2. 資料分成兩個部分,基礎資料以及标簽的資料,那麼基礎資料存在的問題是缺乏統一的建設标準以及品質的評估。我們知道歐盟有很多的成員國,成員國之前是各自發行貨币的,不利于整體經濟的發展。資料也是一樣,需要同樣的标準去建設,促進資料的一個流通,這是基礎資料存在的問題。對于标簽資料而言,我們的生産管理服務應用整個鍊路是斷裂的,無法最大的提高一個标簽生産的效率。
  3. 算法工程上,煙囪式的垂直類的一個開發,比如說廣告和搜尋,它在特征到工程上面都是重複開發的。
  4. 業務上,資料的建設周期比較長,趕不上業務的一個發展。

體系介紹

底料篇

以友盟+為例。經過了9年專業的大資料的服務,積累下了PC網站的 APP的資料以及廣告監測類的資料。面臨的一個問題,如何把大體量的資料穩定高品質的同步到計算平台,自研的一鍵的資料同步的工具,打通業務系統到大資料之間的中繼資料平台,同時業務系統的增删改也會通知到大資料測,

** 建設篇:

**

阿裡系資料技術專家4000字資料智能平台搭建實戰筆記背景疫情後的機會點:什麼是資料智能平台面臨的挑戰體系介紹标準化篇打通篇标簽篇智能篇:規劃和感想

公共資料中心的建設,核心是為了解決名額一緻性的問題

按業務域和分析次元建構公共資料中心。什麼叫業務闆塊?比如亞馬遜,它是有電商和雲兩塊業務的,那麼這兩塊業務其實就是業務闆塊,我們一個抽取電商業務來看,有日志、交易、物流、廣告等最基礎的一些資料組成,這就叫做資料域。資料域是業務過程的集合,以交易為例,分付款,退拍下和退款,這三個業務過程共用的一個訂單ID,是以在一張事實表裡。交易的過程有次元刻畫,有商品、買家、賣家這些次元構成了維表,比如買家的昵稱、注冊的時間。維表備援在實時表中的好處是減少大資料量的join,保證資料的穩定高效的産出。通過建設可以讓由礦石變成92号的汽油,這個時候資料就可以被使用了,這是基礎資料建設的部分。

所有的營運産品、市場等業務的同學使用的資料全部叫做名額,這些名額全部是派生名額。跟大家一起拆解一個名額,叫最近30天會員在無線端的登入次數,那麼最近30天就是時間周期,會員是統計粒度,統計粒度對應的最左邊的次元資訊。無線端就是業務限定,登入的次數就是原子名額。登入次數加業務限定就等于上面圖表中最左邊的業務過程。那這個名額拆解的過程怎麼去映射到我們的技術資料,怎麼關聯呢?

再舉兩個例子。很多人可能簡單自學SQL後,就可以自己跑資料:通常情況下,SQL品質無法保證,如果查詢的資料量非常大,可能背景幾千台機器就轉起來了。為避免類似情況發生,我們會在送出任務過程中做代碼校驗,對于性能問題、規範問題、代碼品質問題都會給出必要的提示,比如SQL代碼對于除數為0沒有做代碼相容,比如我們的DDL語句中沒有做資料生命周期的設定,比如SQL的QUERY中沒有做分區的條件限制,甚至你的SQL代碼别人已經計算過,可以複用結果不需要重新計算這些問題,我們都會給出精确到提示。

在資料研發過程中,代碼編寫可能隻占工作量的20%,那麼大部分時間都去幹嗎了?是資料驗證,代碼修改前和代碼修改後,資料到底差多少,差在哪兒?過去如果沒有工具隻能寫一堆腳本,再去驗證,效率極其低下,而且極易出錯。現在有了“資料對比”工具,就可以通過簡單的勾勾選選知道前後差異到底在哪?然後迅速給測試報告,保證整個研發過程的資料品質是有保障的。

有了工具的建設,最後是運維。核心是要用最優的資源保障最重要的資料及時的産出。

标準化篇

阿裡系資料技術專家4000字資料智能平台搭建實戰筆記背景疫情後的機會點:什麼是資料智能平台面臨的挑戰體系介紹标準化篇打通篇标簽篇智能篇:規劃和感想

以IP to 地域為例,有閱讀類的App做本地的資訊,這個服務在市場上面是很普遍的,但準确度隻能做到65%;再以遊戲App為例,比如說品牌/機型代表購買力,螢幕/記憶體容量供開發者優化疊代産品。這些參數要是開發者去采集的話,會遇到特别多的問題,比如手機機型是0011X, 0011X代表iPhone11,那麼集合于這兩類的需求,這個時候就需要運用全域資料的能力,在高維的空間精準識别比對資訊。

反作弊篇

阿裡系資料技術專家4000字資料智能平台搭建實戰筆記背景疫情後的機會點:什麼是資料智能平台面臨的挑戰體系介紹标準化篇打通篇标簽篇智能篇:規劃和感想

整個過程的反作弊怎麼做?比如有一款視訊類的App在做使用者分層,一共5層,大多數精細化營運同學都會這麼去做。第1層是超級使用者,第2層是黑産裝置。作弊資料對标簽也是一種噪聲,對于簡單的機刷,用規則就可以識别出來。比如IP的黑名單庫,裝置的黑名單庫。但是随着這些技術的日新月異,對于模拟器而言,要采用機器學習的方式,從行為資料中加以判斷。還有種是“群控”,也就是羊毛黨。第3層--第5層分别是高品質、中品質和低品質。

規則,IP的黑名單庫,裝置的黑名單庫。對于模拟器,采用機器學習的方式,從行為資料中加以判斷,對于群控羊毛黨采用圖算法。多管齊下,濾掉86%的一個假量。

打通篇

阿裡系資料技術專家4000字資料智能平台搭建實戰筆記背景疫情後的機會點:什麼是資料智能平台面臨的挑戰體系介紹标準化篇打通篇标簽篇智能篇:規劃和感想

與此同時,網際網路和傳統行業一樣都會存在着資料的孤島,因為我們現在客戶的觸點是非常多的,比如說有傳統的PC網站,有App,有小程式。在跨端上面,比如兩個小程式,A上使用者少,成交率高;B上使用者多,成交率低,要進行跨端的資料的營運。有PC和無線資料,PC上面點了一個商品,App上把相應商品或者相應的文章來推薦給使用者,這樣來看使用者的留存将會得到極大的一個提升。裝置聚合的主要場景是看小程式和App一共有多少使用者。

标簽篇

阿裡系資料技術專家4000字資料智能平台搭建實戰筆記背景疫情後的機會點:什麼是資料智能平台面臨的挑戰體系介紹标準化篇打通篇标簽篇智能篇:規劃和感想

标簽是通過行為分析認知使用者的一個過程。是資料分析的一個起點,比如最近30天來過北京2次的人群,隻要有業務價值,它就是一個标簽。标簽的分類,分有統計性和預測性,差別在統計型标簽不需要樣本集和準确度。那标簽有什麼作用呢?

一、市場細分和使用者分群:市場營銷領域的重要環節。比如在新品釋出時,定位目标使用者,切分市場。這是營銷研究公司會經常用的方式。

二、資料化營運和使用者分析。背景PVUV留存等資料,如果能夠結合使用者畫像一起分析就會清晰很多,揭示資料趨勢背後的秘密。

三、精準營銷和定向投放。比如某産品新款上市,目标閱聽人是白領女性,在廣告投放前,就需要找到符合這一條件的使用者,進行定向廣告投放。

四、各種資料應用:例如推薦系統、預測系統。我們認為:未來所有應用一定是個性化的,所有服務都是千人千面的。而個性化的服務,都需要基于對使用者的了解,前提就需要獲得使用者畫像。

常用的一些标簽體系(以下均為大資料預測結果):

第一類:人口屬性。比如說性别、年齡、常駐地、籍貫,甚至是身高、血型,這些東西叫做人口屬性。

第二類:社會屬性。因為我們每個人在社會裡都不是一個單獨的個體,一定有關聯關系的,如婚戀狀态、受教育程度、資産情況、收入情況、職業,我們把這些叫做社會屬性。

第三類,興趣偏好。攝影、運動、吃貨、愛美、服飾、旅遊、教育等,這部分是最常見的,也是最龐大的,難以一一列舉完。

第四類,意識認知。消費心理、消費動機、價值觀、生活态度、個性等,是内在的和最難擷取的。舉個例子,消費心理/動機。使用者購物是為了炫耀,還是追求品質,還是為了安全感,這些都是不一樣的。

如何判斷标簽體系的好壞?

在實際建構标簽體系時,大家經常會遇到很多困惑,我列舉5個常見問題:

第一、怎樣的标簽體系才是正确的?其實每種體系各有千秋,要結合實際應用去評估。

第二、标簽體系需要很豐富麼?标簽是枚舉不完的,可以橫線延展、向下細分。也可以交叉分析,多元分析。如果沒有自動化的方式去挖掘,是很難做分析的,太多的标簽反而會帶來使用上的障礙。

第三、标簽體系需要保持穩定麼?不是完全必要,标簽體系就是産品/應用的一部分,要适應産品的發展,與時俱進。比如, “新冠”這個詞,今天卻很熱。我們是不是要增加一個标簽,分析哪些人有購買新冠相關的防疫藥品。 有一種情況下,标簽要保持穩定。如果你生産的标簽有下遊模型訓練的依賴,即我們模型建完後,它的輸入是要保持穩定的,不能今天是ABC,明天是BCD。在這種情況下,是不能輕易對标簽體系做更改的。

第四個,樹狀結構or網狀結構?樹狀結構和網狀結構從名字上就可以看出其分别。網狀結構,更符合現實,但是層次關系很複雜,對資料的管理和存儲都有更高要求。知乎,如果仔細去看它的話題設定,其實是網狀的。

網狀的特點就是一個子話題,父級可以不止一個,可能有兩個。比如兒童玩具,既可以是母嬰下分分類,也可以是玩具下的分類,它就會存在兩個父節點之下。樹狀結構相對簡單,也是我們最常用的。網狀結構在一些特定場景下,我們也會去用。但是實作和維護的成本都比較高。比如,有一個節點是第四級的,但它的兩個父節點一個是二級,一個是三級,結構異化帶來處理上的麻煩。

第五個,何為一個好的标簽體系?應用為王,不忘初心。标簽是為了用的,并不是為了好玩,最好保證标簽體系的靈活和細緻性。

智能篇:

阿裡系資料技術專家4000字資料智能平台搭建實戰筆記背景疫情後的機會點:什麼是資料智能平台面臨的挑戰體系介紹标準化篇打通篇标簽篇智能篇:規劃和感想

資料智能的建設指分析、洞察、政策、效果的工程化能力,有了這些智能的工程化能力,就能通過引擎向外暴露接口的方式來支援百花齊放的業務,支援所有開發者的業務,這就是友盟+采建管用一站式服務平台的整個建設過程,開發者可以借此為例,快速自建、或依靠友盟+的技術能力,豐富自己的資料智能平台/資料銀行的建設。

規劃和感想

第一,快速模組化的能力。實時自動的标簽産出,或者結合業務場景的實時化,能最大保障智能化營運的及時性;

第二,不能隻說這個使用者對汽車感興趣,而是需要細分到車型、價位,甚至他去買車時,會關注駕駛乘坐的舒适性、操控的靈活性,還是内飾的細節。