内容來源:宜信技術學院第11期技術沙龍|宜信資料中台全揭秘(一)資料中台整體介紹
主講人:宜信資料中台解決方案架構師 裴國強
PPT下載下傳:連結:
https://pan.baidu.com/s/1eSkSdUo6FmYFmcE4xg0vjw 密碼: 99uh
一、資料中台定位
1.1 ADX整體簡介-中台定位
主要内容:結合目前宜信的業務,分享資料中台的主要研發邏輯和具體功能,以及解決哪幾項核心問題。首先對中台的服務範圍說明:
- 企業級:針對是整個企業的所有業務部門,橫向貫穿整個業務線的資料,縱向貫穿整個資料生命周期,從最開始的資料采集(DB,日志,消息,檔案),入湖,标準化,開發(批量作業,流式作業)次元表,最後到資料服務和資料應用。
- 複用:複用的範圍包括,能力的複用,邏輯的複用,資料資産的複用,算法的複用。
- 能力:對平台能力進行抽象,對于不同平台的對能力的抽象,業務平台(流程控制,管理,審批,權限「等級,繼承」,排程),資料平台(批量,流式,UDF,UDAF,資料品質,血緣分析,資料地圖,排程,資料資産管理,權限,資料服務)。
分橫向和縱向兩個方面:
橫向劃分
- 大資料基礎叢集:更貼近硬體的平台,負責提供穩定及高可用的計算運作環境,及安全的資料存儲環境
- HDFS-資料湖的基礎存儲,存放表每天的快照,和增量資料。
- KUDU-最新快照,用于即席查詢,資料服務,流式資料快照。
- ClickHouse-Clickhouse做DW和DM層的存儲。
- 資料中台 :對資料能力的抽象 ,資料的流式和批量加工,資料資産的釋出,資料統一落湖,品質管理檢測,脫敏加密,統一資料出口能力。
- 業務前台:對業務系統,業務線資料團隊,提供各種不同的資料能力。使其能在中台上沉澱企業級資料資産。
縱向劃分
- 資料管理委員會:對資料資産的品質認證,資料使用權限的授權,資料治理項目推動實施。
- 資料營運團隊:客戶标簽,使用者畫像,産品畫像,智能推薦,精細化管理。
- 資料安全團隊:資料脫敏加密,安全密鑰管控,資料風險的控制。
二、資料中台價值
2.1 資料中台價值
- 快:
傳統數倉定制化報表,排期周期長,響應需求慢,重複開發工作比較多。T+1的資料失效也滿足不了現在網際網路業務場景下對資料實時處理能力的需求。對中台平台自主化開發,可以提升資料加工能力沉澱,以及實時資料處理能力。
- 準:
資料擷取準确性,通過統一資料抽取平台對資料實時抽取,同時完成标準化,入湖,脫敏釋出。通過中繼資料和血緣分析準确擷取資料地圖。通過模型管理和統一模型口徑。
- 省:
節省人力成本,大大降低大資料處理的技術門檻,使使用者能夠快速上手。節省需求排期時間,使資料能更快的響應業務需求。節省硬體資源,通過對平台資源的整合,規劃,節省硬體使用維護成本。
2.2 資料總線平台DBus
DBus面向大資料項目開發和管理運維人員,緻力于提供資料實時采集和分發解決方案。平台采用高可用流式計算架構,提供海量資料實時傳輸,可靠多路消息訂閱分發,通過簡單靈活的配置,無侵入接入源端資料,對各個IT系統在業務流程中産生的資料進行彙集,并統一處理轉換成通過JSON描述的UMS格式,提供給不同下遊客戶訂閱和消費。DBus可充當數倉平台、大資料分析平台、實時報表和實時營銷等業務的資料源。目前dbus支援的資料源包括 mysql,Orale db2,Mongo,日志系統,檔案系統等。
2.3 流式處理平台Wormhole
Wormhole面向大資料項目開發和管理運維人員,緻力于提供資料流式處了解決方案。平台專注于簡化和統一開發管理流程,提供可視化的操作界面,基于配置和SQL的業務開發方式,屏蔽底層技術實作細節,極大降低了開發門檻,使得大資料流式處理項目的開發和管理變得更加輕量靈活、可控可靠。
2.4 虛拟混算服務平台Moonbox
Moonbox面向資料倉庫工程師/資料分析師/資料科學家等,緻力于提供資料虛拟化解決方案。既可作為資料應用底層資料查詢計算統一入口,也可作為邏輯資料倉庫與現有資料倉庫互補。使用者隻需通過統一SQL服務調用和Moonbox互動,即可透明屏蔽異構資料系統異構互動方式,輕松實作跨異構資料系統透明混算。
2.5 資料化可視應用平台Davinci
Davinci面向業務人員/資料工程師/資料分析師/資料科學家,緻力于提供一站式資料可視化解決方案。既可作為公有雲/私有雲獨立部署使用,也可作為可視化插件內建到三方系統。使用者隻需在可視化UI上簡單配置即可服務多種資料可視化應用,并支援進階互動/行業分析/模式探索/社交智能等可視化功能。
三、資料中台子產品架構
3.1 資料中台子產品架構
宜信中台整體底層采用wormhole+dbus+moonbox作為資料采集,加工,處理的底層引擎,通過服務的形式形成底層接口層提供資料實時處理的基礎能力,在通過對接口層的整合,形成資料加工處理的子服務,使資料中台的背景服務完成排程,鑒權,認證,監控,告警。通過對不同元件層的能力整合完成了各項資料能力批量作業編排,排程,補數,手動重新開機,流式資料邏輯加工(source,lookup,transformation,union) flow在stream内的實體執行順序,流式資料落湖,流式資料回溯。
3.2 功能目錄
菜單劃分
管理類(審批,庫表,團隊,規則,密鑰,監控,預警,中繼資料);
功能類(批量作業,流式作業,即席查詢,資料釋出);
資料應用類(血緣分析,資料地圖,資料模型,資料品質)。
四、解決核心問題概覽
4.1 批量作業處理
專注于作業編輯編排,是資料項目的IDE,具體執行送出到對應中間件工具上執行。
簡單一緻的IDE體驗
- 批量作業、流式作業拖拽式編排
- 批量作業、流式作業SQL式開發
- 全局唯一表名,屏蔽異構資料系統
- 開發期可驗證SQL和資料正确性
4.2 流式作業處理
主要解決資料處理流程中錯綜複雜的依賴關系。
後面的沙龍我們将詳細的介紹宜信資料中台的批量處理和流式處理功能請大家持續關注我們。