天天看點

跨多雲大資料平台DataCake詳解

作者:DataFunTalk

導讀 茄子科技(海外 SHAREit Group)作為穿越周期的新一代全球化網際網路科技公司,在全球市場一路高歌猛進,短短兩年時間,茄子科技旗下産品 SHAREit(國内茄子快傳)全球使用者超 12 億,2019 年,SHAREit 全球使用者超 18 億。截至目前,茄子科技産品矩陣全球累計安裝使用者量近 24 億。海量的資料規模、快速發展的公司業務對大資料平台提出了複雜、苛刻的需求。

本文将介紹茄子科技大資料團隊自主研發的跨多雲自助式大資料平台 DataCake。主要包括以下三大部分:

1. 大資料平台的背景 & 挑戰

2. DataCake 解決方案

3. DataCake 未來規劃

分享嘉賓|張韶全 茄子科技 大資料部門技術總監

編輯整理|Leo 長亮科技

出品社群|DataFun

01

背景 & 挑戰

1. 背景

跨多雲大資料平台DataCake詳解

DataCake 是為了解決企業的資料需求而誕生、發展的,資料對企業的重要性已經不言而喻。可以概括為以下三個方面:

① 資料量:資料已經是企業最為核心的資産,同時全球生産的資料量仍然呈現出指數級的增長;

② 應用場景:資料的應用場景也更加廣闊、深入,資料驅動已經展現在産品全流程的流水線中,資料科學已經成為了科學研究的第四種範式;

③ 資料潛力:資料分析市場的潛力同樣巨大,資料倉庫、資料科學領域依舊受到資本熱捧,有研究報告指出,基于資料驅動的企業每年可以額外獲得 30% 的資料增長。

2. 挑戰

跨多雲大資料平台DataCake詳解

如何發揮出資料的價值,面臨着很多挑戰。在 DataCake 團隊與公司内部需求方與外部客戶的溝通中,将所面臨的挑戰從不同的角度可以分為三類:

(1)業務負責人

業務資料化是容易事,但這僅僅完成了資料記錄,實作資料業務化才是變廢為寶的關鍵。大資料條線營運成本居高不下,需要維護大量曆史任務、業務作業。

(2)資料分析師、資料科學家

在大多數公司中,大資料部門以一個中心化的中台部門的形式存在,資料需求與開發之間需要業務部門與開發部門進行跨團隊溝通,流程複雜、開發排期周期漫長。大資料技術生态元件繁多,分析人員技術基礎弱學習成本高。

(3)技術負責人

業務團隊快速試錯,庫表 ETL 任務快速膨脹,任務歸屬、血緣依賴和資料權限混亂。大資料、雲計算産品衆多,技術體系架構複雜,對使用者不透明。

以上挑戰又可以總結為兩大問題:

① 資料無法發揮價值:投入了大量的成本但看不清資料在業務價值上的收益;

② 資料治理無從下手:業務需求複雜、曆史作業衆多、大資料技術元件零散,資料體系搭建困難。

有三組資料可以表明上述兩大問題的危害:

① 66% 的資料是沒有被利用的;

② 84% 的管理人員不相信資料的價值;

③ 70% 的企業沒有高效的資料架構。

--

02

解決方案

1. Data Mesh 思想

為了解決上述問題,DataCake 引入了資料驅動的組織架構 Data Mesh 思想。該思想旨在通過軟體架構來促進公司組織架構的變革。其中一個核心思想就是,将中心化(Centralized)的資料團隊,轉變為領域驅動(Domain-driven),讓業務負責資料。

跨多雲大資料平台DataCake詳解

在傳統的中心化資料團隊組織中,企業内部的一個資料團隊要服務于多個業務部門,而Data Mesh 則是一種分布式的資料合作方式,也就是領域驅動。主要的變化在于每個部門自己擁有相關的資料,對自己的資料負責。Data Mesh 通過三個方面來實作這一目的。

① 自助化平台 Self-Serve Platform:利用自助化資料平台,業務自己輕松實作相關資料需求的開發任務。

② 資料即産品 Data as a Product:資料産品化可以促進跨團隊之間的資料合作,提高資料的利用效率。

③ 聯邦資料治理 Federated Governance:在分布式資料開發與應用之外,也需要集中式的資料治理機制,這樣才可以保證資料的安全與品質。

DataCake 就是一個基于 Data Mesh 思想建構的大資料平台,在該軟體思想的踐行中,也促進了組織架構的變革。相關部門負責人可以結合自己的實際需求和領域知識來實作靈活試錯和快速疊代。

跨多雲大資料平台DataCake詳解

2. DataCake 實作四個大方向的功能

具體來說 DataCake 實作了四個大方向的功能:

跨多雲大資料平台DataCake詳解

(1)自助式大資料應用平台

為業務人員提供了低技術成本利用資料的解決方案,以低代碼的方式搭建任務流水線,完成數倉開發;統一的資料分析;資料可視化、自定義報表開發等功能。

(2)資料智能治理與安全管理

提供多元度的資料成本賬單,利用智能引擎輔助資料治理與資料權限管理。

(3)統一資料管理平台

将中繼資料資訊收口統一管理,構造資料資産目錄,讓資料可以被收錄、被檢索、被利用,打破不同部門間的資料孤島。此外提供資料品質監控功能,以保障資料有效、可用。

(4)湖倉一體架構

業務産生的資料直接入湖,可以直接對明細化資料進行分析,減少流水線搭建帶來的成本。同時,對時效性不強的資料也可以進一步搭建數倉。

3. DataCake 技術架構速覽

跨多雲大資料平台DataCake詳解

DataCake 是一個跨多雲的雲原生的數倉一體平台。

(1)在基礎設施層面( IaaS)

DataCake 建構在現有的雲計算廠商提供的 IaaS 之上,為跨不同雲商/本地機房提供統一應用服務層。這樣既充分利用不同雲商的優勢,也避免對單一廠商的過度依賴,出現 vendor lock-in。

(2)在平台層面(PaaS)

DataCake 提供了跨場景的無服務計算(Serverless)平台,支援包括 Adhoc、批處理、實時流計算以及雲廠商自有接口在内的衆多計算引擎。也提供高效的叢集管理功能,可以非常友善的進行水準與垂直方向的擴充。

(3)在服務層面(SaaS)

DataCake 支援包括 HUE、Tableau 在内的衆多計算引擎和資料應用平台,這樣就可以不同的應用場景和應用,同時可以根據應用場景智能選擇最佳計算引擎。另一方面,對于系統的管理者,DataCake 也提供了管理入口,以支援雲資源管理、部署叢集、資源優化,和跨雲、跨源資料管理和權限管理。

4. 方案實作

(1)極簡資料分析

跨多雲大資料平台DataCake詳解

DataCake 為資料使用者提供一個可通路任何資料源的頁面,促進資料的應用,協作與分享。從單一入口即可通路來自資料庫、倉庫、湖以及雲端的資料。

此外,DataCake 也會根據 SQL 腳本的特點和資料源類型适配最佳引擎,分析人員無需自己選擇對應的計算引擎。也支援 Data as Product 理念,可以以 API 的形式分享資料,同時也支援 SQL 代碼、模闆的分享。

(2)低門檻資料開發

跨多雲大資料平台DataCake詳解

DataCake 将常用的開發流程模闆化,DataCake 幾十餘種常見模闆封裝,覆寫從資料接入到數倉轉換,再到資料分發全部流程。通過模闆式開發,無需開發人員介入,業務人員即可完成整個 Data Pipeline 建設。另外,DataCake 也支援以可視化的方式分析資料血緣、ETL 鍊路。

(3)統一資料管理

跨多雲大資料平台DataCake詳解

DataCake 将資料管理中的需求統一到一個平台。統一管理、發現、監控來自資料湖、資料倉庫、資料庫等不同源的資料,消除資料孤島,促進資料合作,保證資料品質和安全。

一方面,DataCake 支援多源的資料注冊,可包含相關業務資訊和資料血緣。也提供了資料檢索、查詢的入口,滿足資料探索的需求。

另一方面,也提供了聯邦式的資料管理功能,提供了細粒度權限管理,詳細的審計資訊和完備的資料品質監控。這樣就可以在保證資料安全的前提下,滿足不同業務團隊對資料應用的需求。

(4)智能化資料治理

跨多雲大資料平台DataCake詳解

DataCake 基于公有雲進行資料治理的實踐者。從可觀測、可治理和可自動三個層面,為使用者提供一目了然的資料資産和一鍵的治理體驗,将項目式資料治理變為日常工作流程。

① 在可觀測層面,DataCake 可以做到在系統、資料、業務三個層面都提供細粒度的資料資訊。

② 在治理層面,實作對計算任務和計算資源的評分與運作情況檢測。

③ 在自動化營運層面,DataCake 将專業人員的治理流程産品化,同時借助 AI/ML,将平台智能化。實作資料治理工作的例行化、自動化與智能化。

(5)跨多雲Serverless

跨多雲大資料平台DataCake詳解

因為 DataCake 是一個建構于不同雲平台的 PaaS。是以提供了多雲叢集管理優化、計算部署平台,可以根據業務的特點選擇虛拟環境類型,以及叢集的規模。此外,根據業務場景與叢集、應用負載,DataCake 可以自适應地彈性擴縮資源,充分發揮雲資源彈性的特點,帶來客觀的成本消減。最後,DataCake 可以高效适配不同類型計算執行個體,例如 Spot、ARM,來降低計算成本,提升計算性能。

--

03

DataCake 未來規劃

跨多雲大資料平台DataCake詳解

1. 産品層面

SaaS 全托管模式即将在多個雲商上線,敬請期待。

2. 技術層面

将繼續從高效、智能、開放三個層面打造開源、智能一站式的大資料平台,讓業務資料發揮更大的價值。

今天的分享就到這裡,謝謝大家。

跨多雲大資料平台DataCake詳解

▌2023資料智能創新與實踐大會

第四屆DataFunCon資料智能創新與實踐大會将于⏰ 7月21-22日在北京召開,會議主題為新基建·新征程,聚焦資料智能四大體系:資料架構、資料效能、算法創新、智能應用。在這裡,你将領略到資料智能技術實踐最前沿的景觀。

歡迎大家點選下方連結擷取大會門票~

DataFunCon2023(北京站):資料智能創新與實踐大會 �-�百格活動

跨多雲大資料平台DataCake詳解