天天看點

Dataphin幫助企業建構資料中台系列之--萃取資料中心

作者:陳夢婷 更多内容詳見資料中台官網 https://dp.alibaba.com Dataphin作為阿裡巴巴資料中台OneData (OneModel、OneID、OneService)方法論的産品載體,幫助企業建構三大資料中心:基于資料內建形成的垂直資料中心、基于資料開發沉澱的公共資料中心和基于标簽工廠建構的萃取資料中心。今天我們就一起來看看,Dataphin是如何基于OneID思想建構資料萃取中心,連接配接上下遊應用為企業創造更多價值的吧~

  1. 為什麼要建立萃取資料中心:提升資料價值密度

    首先,我們來看看Dataphin為什麼要幫助企業建構自己的萃取資料中心?

大資料時代,任何微小的資料都可能産生不可思議的價值。作為智能資料建構與管理平台,Dataphin的規範模組化、資料處理等核心功能幫助企業高效整合來自不同業務資料庫的海量資料,沉澱資料資産,建構自己的資料中台,應對大資料時代Volume(大量)、Variety(多樣)、Velocity(高速)方面的挑戰。然而,相比于傳統的小資料,大資料更大的價值在于從海量不相關的各類資料中,挖掘出對預測分析有參考意義的資料,提升資料價值密度并應用于指導生産,進而幫助企業實作提效降本的目的。Dataphin的資料萃取功能正提供了這樣的能力。

從業務視角來看,日常生産和營銷活動中,不管是人群圈選、選址還是個性化投放,都離不開标簽的指導。标簽是對一個實體的立體刻畫(不局限于人,任何可被描述和分析的存在都可以是實體,如商品、公司等)。不同次元的标簽從不同角度對實體進行描述,例如以零售視角為切入點,我們可以從自然屬性(如性别、年齡)、社會屬性(如經濟狀況、婚姻狀态)、興趣偏好(如喜歡整潔的環境、希望有漂亮的牙齒)和行業消費偏好(如美妝偏好、母嬰偏好)來對消費者進行描述。高品質、全面的标簽能夠有效地抽象出一個實體的資訊全貌,為精準營銷奠定了基礎。

資料隻有融通才能産生更大的價值,我們不僅希望可以分析和應用大資料,更希望得到通過跨業務單元連接配接起來的資料和精細化萃取的資料。這種情況下,Dataphin資料萃取子產品基于業務資料庫的原始資料和模組化研發等沉澱的資料資産,将全系統中主資料——即貫穿各個隔離業務的核心對象,進行識别與關聯連接配接,打通業務資料孤島,進一步提煉可直接應用的高價值标簽資料,進而幫助企業建構自己的萃取資料中心,并對接上遊應用(QuickAudience等)進一步指導生産營銷活動。

  1. 如何高效建立萃取資料中心:可視化配置,自動化生産

    Dataphin研發子產品下的資料萃取為我們提供了連接配接行為資料并實作标簽萃取的功能,現階段優先支援以消費者為對象的資料體系,功能子產品主要包括3 大部分:ID中心、行為中心和标簽中心(目前ID中心暫未上線)。此外,運維子產品下還提供單獨的萃取運維子子產品,支援從業務視角檢視萃取相關的排程任務。下面,我們将從幾個功能子產品的視角給大家介紹Dataphin如何幫助企業建構自己的萃取資料中心。

Dataphin幫助企業建構資料中台系列之--萃取資料中心

1)ID中心:相關ID自動化識别與連接配接

Dataphin基于OneID的思想,以唯一辨別打通來自不同平台、系統、管道的資料,支援通過可視化界面參數配置的方式,從所有資料中提煉并基于算法自動識别各類型ID 之間的映射關系(購物會員ID、視訊觀看者ID、購物裝置mac、觀看裝置IP 等),并将屬于同一實體的不同類型ID通過唯一的One ID進行連接配接,使得基于ID生産的标簽可以聚合到同一實體,進而對實體進行更精準、全面的刻畫。

2)行為中心:沉澱行為元素,建構行為規則

Dataphin目前支援以人的相關ID 為中心,通過可視化界面表單配置的方式,從來源行為資料中提煉進而聚攏不同業務域下的行為資料(如電商購物、視訊觀看)。

首先,我們需要從業務視角對行為資料進行梳理,從中提煉出可複用的行為元素(行為域、業務線、動作、對象、對象屬性),并通過對行為元素進行組合定義不同的行為(行為域-業務線-動作-對象)。行為域聚合業務含義一緻的行為資料,如電商域、文娛域;業務線基于行為域将行為資料進一步細分,各業務線之間相對獨立,如淘寶業務線、天貓業務線;動作指行為主體發出的操作,如購買、浏覽;對象指行為主體操作的具體事物,如商品、電影;對象屬性是對象的描述性資訊,如名稱、品牌、年份。通過抽取沉澱行為元素,我們可以将來源資料更好地進行劃分組合以得到具有明确業務含義的行為,如電商域-淘寶-購買-商品、文娛域-優酷-浏覽-電影。通過沉澱行為元素,我們可以更好地規範來源資料,并減少重複建設和人力投入。

Dataphin幫助企業建構資料中台系列之--萃取資料中心

給同一行為選擇不同的來源表并添加配置,即生成不同的行為規則(由行為+來源表唯一确定),後續标簽生産将依賴已經建構的行為和行為規則。規則配置主要包括行為主體ID、對象、對象屬性和行為發生次數,從來源表選擇相應的字段,再通過行為規則的周期排程任務,我們就能得到持續更新的行為資料作為标簽生産的來源。

Dataphin幫助企業建構資料中台系列之--萃取資料中心

3)标簽中心:高效标簽生産

建構完成行為和行為規則後,進一步地,我們将基于算法模型,通過簡單的界面配置定義标簽的生成規則。

标簽的配置分為兩大步驟:第一步首先基于定義的行為圈選出某标簽需要依賴的行為資料,接着對預期得到的标簽值和打标方式進行配置;第二步需要對已選的行為資料設定時間衰減模式,并基于業務含義給不同的行為配置設定不同的權重。例如,我們認為“購買母嬰用品”和“觀看親子視訊”的使用者都可以被打上“母嬰人群”的标簽,那麼第一步,我們将這兩種行為相關的資料都勾選出來,設定預期标簽值為“母嬰人群”;第二步,我們認為近期的行為比之前發生的行為更有參考性,是以選擇線性衰減模式,給近期行為賦予更大的時間權重;同時,基于業務經驗,我們認為“購買母嬰用品”比“觀看親子視訊”更能精确定位到目标使用者,是以給“購買母嬰用品”行為配置設定更大的權重。這樣,我們就完成了“母嬰人群”這樣一個購物偏好标簽的生産。

Dataphin幫助企業建構資料中台系列之--萃取資料中心

不同于傳統标簽生産,Dataphin資料萃取的使用者隻需要關心标簽的具體業務含義和規則,而不用關心底層算法的實作,通過簡單的界面操作即可完成标簽的配置,并自動生成代碼和周期排程任務,極大程度上降低了标簽生産的難度和門檻。

Dataphin幫助企業建構資料中台系列之--萃取資料中心

4)萃取運維

最後,我們在萃取子產品配置的行為規則和标簽都會生成自動化排程的周期任務。在“運維”界面的“萃取運維”子子產品下,我們可以從業務視角更清晰明了地檢視相應任務和對應生成的執行個體,并針對異常排程通過補資料等操作回複生産。如此一來,業務人員也可以配置并檢視萃取任務,大大降低了對技術人員的依賴。

Dataphin幫助企業建構資料中台系列之--萃取資料中心
  1. 總結

    Dataphin資料萃取功能上線後,批量生産十幾個同類型的标簽的時間從兩周縮短到兩天左右,而且可以監控标簽生産任務,不管是速度還是正确性上都得到了很大的提升;參與的人員也從原本的資料産品經理、資料研發工程師、資料科學家為主導轉變為更多的業務角色可以參與甚至主導。

Dataphin萃取資料中心的建立,幫助企業更好的實作了目标對象相關ID 的識别與連接配接、目标對象所有行為的規範化結構化聚集和目标對象相關标簽屬性的快速建立,進而快速建構企業自己使用者資料資産,以便對接資料應用類産品,實作營銷投放等。

看了這些介紹,是不是對Dataphin的資料萃取功能充滿了期待和信心?那就快來體驗一下吧~更多Dataphin的驚喜等你來挖掘!

結語:

阿裡巴巴資料中台團隊,緻力于輸出阿裡雲資料智能的最佳實踐,助力每個企業建設自己的資料中台,進而共同實作新時代下的智能商業!

阿裡巴巴資料中台解決方案,核心産品:

Dataphin,以阿裡巴巴大資料核心方法論OneData為核心驅動,提供一站式資料建構與管理能力;

Quick BI,集阿裡巴巴資料分析經驗沉澱,提供一站式資料分析與展現能力;

Quick Audience,集阿裡巴巴消費者洞察及營銷經驗,提供一站式人群圈選、洞察及營銷投放能力,連接配接阿裡巴巴商業,實作使用者增長。

歡迎志同道合者一起成長!更多内容詳見資料中台官網