天天看點

阿裡媽媽營銷隐私計算平台SDH在公用雲的落地實踐

作者:閃念基因

一、概覽

如何在營銷場景下安全合規的使用資料,維護線上廣告商業模型的核心運作,成為當下廣告生态中各企業亟需解決的問題。阿裡媽媽一直注重對于隐私資料的安全合規使用,最大限度地保護使用者隐私和資料安全。繼上篇分享阿裡媽媽營銷隐私計算平台Secure Data Hub(以下簡稱“SDH”)在集團生産環境的技術方案後(延展閱讀:廣告營銷場景下的隐私計算實踐:阿裡媽媽營銷隐私計算平台SDH),本篇分享阿裡媽媽營銷隐私計算平台SDH在公有雲的技術實作和應用實踐,歡迎閱讀交流。

二、背景

随着全球主要市場陸續出台個人資訊保護政策,網際網路生态中的資料安全和使用者隐私保護問題變得越發重要且日趨嚴格。2019年國家将資料納為“生産要素”,提倡驅動資料流通展現資料價值。2022年“資料二十條”對外釋出,加速了資料要素市場發展和資料要素高效流通,形成了資料要素開放共享的新形勢。資料要素流通是資料價值釋放的本質要求,安全合規是資料有序流通的基本前提,隐私計算技術為解決資料流通問題和資料價值挖掘提供了關鍵的技術基礎和重要的技術支撐。

廣告作為網際網路最大的商業模式,2022年中國網絡廣告市場規模突破萬億關卡,2023年預計仍保持12.9%的高速增長,逐漸形成一個體量巨大、生态完整的廣告營銷行業。隐私和資料安全問題對全球廣告營銷行業産生了巨大沖擊和影響,産生了諸如禁止第三方cookie、裝置id合規采集使用、資料确權、資料安全合規流通等一系列的問題。在數字廣告行業,資料是營銷開展的基礎,資料流通也會使得資料價值不斷放大及提升。考慮到廣告和使用者資料會分散在廣告生态的多個角色内,包括:使用者、媒體、廣告主、SSP、ADX、DSP、DMP、CDP等,如何解決廣告營銷場景中資料孤島和跨域資料流通問題,在保障多方角色資料隐私安全和法務合規的基礎上為媒體、廣告主和營銷參與方提供及時、準确和安全的營銷服務,已成為全球廣告營銷行業靈活探索的前沿方向和共識。

阿裡媽媽營銷隐私計算平台SDH是一個面向廣告引擎、廣告主、三方DSP/DMP等合作方,在隐私安全環境下進行資料融合、隐私計算、聯合模組化的 Data Clean Room 産品。基于多方安全計算MPC(Secure Multi-Party Computation)、聯邦學習FL(Federated Learning)、差分隐私DP(Differential Privacy)等隐私增強計算技術,SDH為品牌提供跨域安全一緻的資料決策能力。

三、技術架構

3.1 核心能力

阿裡媽媽營銷隐私計算平台SDH在公用雲的落地實踐

3.2 系統架構

SDH公有雲系統架構如下:

阿裡媽媽營銷隐私計算平台SDH在公用雲的落地實踐

參與角色:

  • 平台方:部署SDH服務,負責基礎資料的管理和任務的排程分發,不涉及業務方資料的存儲和計算。
  • 業務方:在私域環境中部署SDH計算引擎,負責業務方私域環境中的存儲和計算。

功能子產品:

  • Console:負責基礎資料管理和任務排程分發,不涉及業務方資料的存儲和計算。
  • Agent:負責身份認證,并提供執行個體生命周期管理的API,包括執行個體的啟動、查詢、停止等。
  • 計算引擎:負責私域環境中邏輯執行計劃的生成和實體執行計劃的排程執行。

網絡通信:

  • 平台方與業務方:使用公網IP通信,傳輸中繼資料通路和任務分發,為單機通信,通信量較小。
  • 業務方與業務方:使用私網IP通信(VPC對等連接配接),傳輸業務方間明密文計算資料,為分布式通信,通行量較大。
阿裡媽媽營銷隐私計算平台SDH在公用雲的落地實踐

3.3 核心原理

3.3.1 中繼資料設計

SDH對資料的可用性和可見性按照資料列粒度進行了詳細的分層定義,以實作資料“可用不可見”能力:

  • 可用性:關聯鍵列屬性、分組鍵列屬性。
  • 可見性:可見屬性、哈希可見屬性、分組可見屬性、聚合可見屬性。

3.3.2 執行計劃生成

SDH計算引擎基于Flink計算架構實作,在執行計劃生成階段自底向上周遊執行計劃,主要包含合法性校驗和拆分改寫兩階段:

  • 合法性校驗:定義完整的資料可用性和可見性推導規則,覆寫Flink内置的Operator算子、系統函數和自定義UDF函數,以驗證資料是否滿足“表級”和“列級”的隐私保護要求。
  • 拆分改寫:自底向上周遊執行計劃,根據資料持有方對執行計劃染色,對Operator進行拆分改寫,将執行計劃拆分成若幹子圖。

3.3.3 密态算子實作

  • Join算子:SDH實作了基于ECDH(Elliptic Curve Diffie–Hellman key Exchange)匿名密鑰合意協定的PSI Join密态算子,加密流程如下圖所示。在Hash Join的Building、Probing通過ECDH加密完成Join條件中等式真值的判斷,同時引入Bloom Filter在Probing階段實作Join Key的預過濾,以優化Join性能,支援百億資料規模的隐私求交。
阿裡媽媽營銷隐私計算平台SDH在公用雲的落地實踐
  • 不等式運算算子:基于Secret Sharing封裝密态比較算子,其中不等式真值的判斷由表達式執行引擎執行計算,可在保證計算精度(2的-32次方)的前提下支援億級資料量的密态比較。
  • 明密文運算單元:基于ECDH、Secret Sharing、HE等密碼學技術封裝多種類型的密态算子,支援常見的邏輯運算(AND、OR)、關系運算(<、<=、==、!=、>=、>)、算術運算(+、-、*、/),并通過密态算子優化持續提升密文運算單元的計算效率。

3.3.4 隐私安全保護

  • 中繼資料保護:提供“表級”别的權限控制;
  • 字段級别保護:提供“列級”别的字段可用性和可見性控制,支援針對不同的operator的字段隐私保護屬性推導和合法性校驗;
  • 資料保護:業務方原始資料不離開本地,平台提供提供完備的資料授權機制,雲上服務設定最小化通路控制政策,并支援多層通路鑒權保證資料隔離;
  • 通信保護:基于非對稱加密+對稱加密完成通信加密,即初始階段雙方使用非對稱加密傳輸随機生成的對稱加密密鑰,後續采用對稱加密方法進行加解密。保障網絡傳輸的資料全部為可見資料。

3.3.5 分布式計算優化

  • 分布式hash join:SDH支援(Shuffle)Hash Join,即兩方的資料根據等值條件中的Join Key按相同的規則進行分片且分片數一緻,即雙方相同Join Key的資料Shuffle後會分布在相同分片ID的Worker上,雙方的Worker直接點對點基于Hash Join進行關聯。
阿裡媽媽營銷隐私計算平台SDH在公用雲的落地實踐
  • 分布式通信優化:雙方通信過程均為加密傳輸,為提升加密性能,采用非對稱加密+對稱加密的方案,即初始階段雙方使用非對稱加密傳輸随機生成的對稱加密密鑰,後續通信采用對稱加密方法進行加解密。為降低網絡傳輸的開銷,通信過程中的資料會組batch傳輸,并壓縮資料以降低網絡通信的資料規模。對于邏輯相對複雜的多方安全計算任務,借助謂詞下推等優化規則将計算邏輯盡可能的前置,在本地對本方資料提前進行預過濾,進而進一步降低網絡通信的資料量

3.3.6 營銷分析元件

  • 對外統一的查詢API:SDH對外提供統一的輕量化查詢API接口,使用者可通過送出MPC SQL或調用營銷分析元件兩種方式進行邏輯查詢,其中分析元件可支援自動化MPC SQL rewrite再送出至計算引擎
  • Service内元件內建:營銷分析元件內建在SDH的Service内,減少額外的部署和網絡打通成本
阿裡媽媽營銷隐私計算平台SDH在公用雲的落地實踐

四、部署架構

SDH提供面向不同雲環境(阿裡雲、第三方雲、私有雲)下的雲化部署方案。基于Serverless K8s叢集可支援一鍵式SDH引擎部署,部署輕量,流程簡潔,技術對接成本低。同時支援雲資源的彈性擴縮容、按量計費。SDH公有雲部署方案如下圖所示,整體部署流程可概括為:

  1. 雲賬号準備
  2. 雲産品範圍申請,配置通路控制
  3. Servicess K8s 叢集部署
  4. SDH 引擎部署
  5. VPC對等連接配接
  6. VPN連通測試(适用于第三方雲、私有雲部署)
  7. API/分析元件調用測試
阿裡媽媽營銷隐私計算平台SDH在公用雲的落地實踐

五、應用案例

5.1 全域消費者資産分析

阿裡媽媽聯合伊利基于SDH營銷隐私平台合力打造了全域消費者資産分析和數字化營運的應用實踐案例。通過SDH的隐私增強分析能力連通伊利品牌域外投放人群(綜藝回流人群、媒體直投人群等),結合“達摩盤”營銷政策中心豐富的“人-貨-場”使用者标簽資料和營銷政策分析進行全域資産投産,形成投放政策,最後同步萬相台人群超市進行場景投放,保障高價值人群的觸達和投放效果。

基于SDH平台提供的PSI和MPC的隐私增強分析計算能力,伊利實作了在資料不出域的前提下,一方人群資産和達摩盤上品牌使用者資産進行MPC的聯合計算分析,完成一方人群的上翻和全域消費者資産分析,幫助客戶完成全域資産沉澱釋放營銷價值,帶來了30%+的全域資産滲透率、購買轉化率和ROI的全面提升。

阿裡媽媽營銷隐私計算平台SDH在公用雲的落地實踐

5.2 廣告跨域營銷效果追蹤

阿裡媽媽營銷隐私計算平台SDH在公用雲的落地實踐

阿裡媽媽聯合加和科技在隐私計算技術上進行深入合作。利用SDH營銷隐私計算平台提供的隐私增強分析計算能力,在保障多方資料隐私安全和資料合規使用的基礎上,針對廣告投前的跨域使用者識别、投中算法聯合模組化、投後的跨管道廣告效果衡量和全管道使用者資産分析場景進行深入的技術探索,完成了“基于隐私計算的廣告跨域營銷追蹤和全域資産分析項目”的落地實踐。解決了廣告主跨域使用者無法追蹤識别、公域廣告投放效果無法準确衡量、使用者資産分散且資料割裂的實際營銷痛難點問題。

基于加和科技持有廣告公域投放資料和品牌私域資料,和阿裡媽媽持有平台廣告投放資料、使用者标簽資料和電商轉化資料。利用SDH的PSI、人群畫像、規則型歸因等營銷分析元件,高效完成雙邊資料的MPC計算,實作跨域使用者的識别和使用者旅程追蹤。沉澱安全、高效的跨域廣告投放效果衡量和全域人群資産分析的解決方案,進而進一步完成跨域廣告營銷的觸達人群特征分析、廣告在淘寶和天貓店鋪的轉化效果追蹤衡量和全管道廣告主人群資産分析,提供科學、真實的廣告後鍊路轉化和使用者特征分析報告,并在資料安全性、分析多樣性、計算準确性和資料時效性上較傳統的資料授權方案上有顯著提升。

該套基于SDH的隐私資料解決方案服務了加和科技ReachMax産品下10+的頭部品牌廣告主,覆寫美妝、食品、日化等多個行業。幫助廣告主提升廣告投放的效果、充分挖掘廣告資料價值,為商家預算的合理配置設定提供有力參考,形成“投放→引流→增長→投放”的良性循環。本解決方案已入選2023大資料“星河”優秀案例(延伸閱讀:阿裡媽媽 x 加和科技隐私計算合作成果入選2023大資料“星河”優秀案例)。

阿裡媽媽營銷隐私計算平台SDH在公用雲的落地實踐

六、總結展望

阿裡媽媽營銷隐私計算平台SDH支援明密文混合複雜任務的分布式資料處理,能夠實作包含隐私集合求交、密态關系及算術運算、視窗聚合等20億/h的計算任務,計算準确率高達2-32。基于EFLS架構支援十到百億級别樣本的FL訓練。同時SDH提供SQL的API接口,內建多類通用化營銷分析元件,支援多種輕量化雲部署方案,進一步降低接入門檻并提供高效的營銷隐私計算分析。跨域廣告投放效果衡量和全域人群資産分析的解決方案和應用案例,打破了廣告營銷場景中資料孤島和跨域資料流通問題,探索建立“可用不可見”的資料要素流通新範式,是隐私計算技術在整個廣告行業中資料要素流通的創新性應用。

未來SDH會持續推動廣告生态中資料要素安全合規地流通,緻力于為品牌提供跨域安全一緻的資料決策能力。不斷完善Saas産品化能力,持續建設更高計算複雜度的聯合統計和模組化的隐私增強分析能力,幫助廣告主安全、高效地進行廣告營銷場景下資料處理、投放優化、效果衡量的分析計算和資料模組化。

作者:翾逸

來源-微信公衆号:阿裡媽媽技術

出處:https://mp.weixin.qq.com/s/UemrAjULSEvLoOsbgrwRzA

繼續閱讀