1►
1. 開源大資料的痛點
- 如何提升性能,降低資源成本
全面的性能優化需要大量的研發投入且門檻較高;大資料資源使用量大,廣大使用者都在不斷探索降本方案。
- 如何降低運維成本
開源大資料元件衆多,開發上手相對容易,但是一旦業務規模和業務複雜度上升以後,所帶來的運維難度和開銷也随之急劇上升。
- 如何保障資料和任務的可靠性
資料是公司的無形資産,資料的丢失往往是災難性的,盡管有多副本,但是動辄幾十台,甚至上百台、上千台的伺服器在機器故障、叢集更新、遷移過程中要保障資料的可靠性是一件不容易的事,而成千上萬的任務實時或周期性的運作,也會消耗大量的運維投入。
- 如何管理資料開發和治理
實作團隊協同開發、安全合規的使用資料以及治理資料,也需要有方法論的支撐和産品支援。
2. EMR産品曆程
如下圖所示,自2016年阿裡雲推出EMR以來,阿裡雲EMR團隊一直緻力于解決以上痛點。
通過一系列的性能優化,阿裡雲在 CloudSort 和 TPC-DS 上取得了世界第一的成績,推出了全托管的中繼資料和資料湖産品,大大降低了運維難度和運維成本。
通過 DataWorks on EMR 以及 EMR Studio 等産品,大大簡化了資料開發以及資料治理的接入門檻。
2►
1. 概述
基于雲原生的理念和阿裡雲上日益成熟的設施,阿裡雲推出 EMR 2.0,建構新一代開源大資料的基礎設施。
EMR 2.0的新特征包括:
全新平台體驗
- 叢集建立速度2倍以上優化
- 叢集擴容速度3倍以上提升
- 彈性規模支援千台以上
- 故障節點遷移
- 叢集診斷工具
全新資料開發
- 全托管EMR Notebook (Jupyter)
- Workflow (Dolphinscheduler)
- 資料開發治理平台Dataworks on EMR
全新資源形态
- EMR on ECS,支援倚天g8,成本效益提升超過40%
- EMR on ACK(K8s)
- EMR Serverless
全新分析場景
- 新版資料湖
- 資料分析
- 資料服務
- 實時資料流
- 資料科學
2. EMR 2.0産品架構
如下圖所示,EMR 2.0産品架構自下而上包括:
硬體資源
- EMR 2.0支援ECS(Intel, AMD, 倚天)/神龍/ECI
存儲資源
- 在存儲資源上,資料湖架構已經已經逐漸成為業界的共識,阿裡雲在對象存儲OSS 技術上更新為 OSS-HDFS 相容 HDFS API
排程資源
- 支援 EMR on ECS、EMR on ACK、EMR Serverless
管控平台
- 監控告警
- 彈性排程
- 叢集診斷
- 故障補償
- 權限&安全
- 元件管理
分析場景
- 新版資料湖 Datalake
- 資料分析 OLAP
- 實時資料流 Dataflow
- 資料服務 DataServing
- 資料科學 DataScience
開發工具
- 開源解決方案 EMR Studio (Notebook, Workflow)
- 企業級開發平台 DataWorks on EMR
中繼資料管理和湖管理
- 在原有的資料湖建構DLF上 新增了權限生命周期管理、湖管理等新特性。
3. 全新平台體驗
- 阿裡雲EMR2.0 圍繞彈性
- 、穩定性、智能、效率四個方面對 EMR 進行了全面更新。
Elasticity 彈性
- 叢集建立,彈性性能大幅提升
- 異構執行個體,競價執行個體滿足個性化彈性需求
Stability 穩定性
- 節點遷移,故障節點自動補償
- 元件狀态巡檢,事件通知
Intelligence 智能
- 叢集資源診斷
- 風險預警
- 實時檢測
Efficiency 效率
- 互動式資料開發
- 一鍵任務送出
- 配置導出&叢集克隆
4. 全新資料開發
EMR 2.0提供兩套解決方案供不同使用者選擇,分别是:基于 Jupyter 和 DolphinScheduler 的 EMR Studio 開源解決方案,和阿裡雲自研的企業級資料開發與治理 DataWorks on EMR。
EMR Studio (Notebook, Workflow)
① 基于 Jupyter 的全托管SaaS化的 Notebook
- a. 直接在EMR管控台頁面建立一個 notebook 并快速與EMR叢集進行關聯,幾分鐘内就可以開始對資料進行分析,無需擔心代碼的儲存以及計算資源維護;b. 對 Jupyter Notebook 進行了優化:如支援 StarRocks 快速指定引擎類型。
② 基于 Apache DolphinScheduler 的全托管SaaS化的 Workflow
- a. 開箱即用,一鍵關聯叢集。
EMR Studio 提供了全新的開源資料開發體驗,在EMR服務費之外,不收取額外費用。
DataWorks on EMR,企業級資料開發與治理
DataWorks 是一套在阿裡内部曆經幾萬使用者十幾年打磨的産品,能夠滿足企業一站式資料開發和資料治理的訴求。DataWorks 支援資料內建、資料開發排程、資料模組化、資料品質、資料地圖、資料安全、資料分析、資料服務以及開放的API等能力:
- 資料內建:基于DataX,支援幾十種資料源作為 source 和 sink 進行資料同步;
- 資料開發:線上的 IDE,支援 Spark、Hive、Presto、ClickHouse 的開發;
- 資料品質:根據任務配置的規則,對任務的産出結果進行正确性驗證;
- 資料地圖:采集字段級粒度的資料血緣;
- 資料安全:提供表和字段級别的權限管理;
- 資料分析:提供快速互動式的分析和可視化分析能力;
- 資料服務:簡化資料查詢服務的開發,通過寫 SQL 就可以提供資料查詢的接口;
- 開發平台:提供一系列的 API 供使用者進行二次開發。
5. 全新資源形态
随着雲原生技術越來越成熟,EMR 也提供了各種資源管理形态。
EMR on ECS
- 支援元件最全,自定義能力最強;
- 跟傳統模式最接近,便于快速遷移。
EMR on ACK
- 完全相容 K8S,10秒級資源排程;
- 支援 Spark, Flink, Presto, RSS 元件;
- 配合 ECI,自動彈性,秒級擴容;
- 完整的任務送出、管理、監控能力。
EMR Serverless
- 首先推出的是 StarRocks;
- 全托管,最小化的運維成本;
- 高可用,SLA 99.99%;
- 開箱即用,對接 EMR Notebook;
- 成本低,按需擴容資源。
新硬體,倚天成本效益提升40%以上
在2022年雲栖大會上,阿裡雲推出了中國首個雲上大規模應用自研CPU倚天710,EMR2.0 也将推出倚天機型。倚天采用最先進的ARM架構和生産工藝,在通用智能性能提升的基礎上,降低了整體的資源成本:
① 在ECS價格方面,倚天G8系列較X86的機器系列價格降低20%以上,計算型系列價格降低超過30%,大幅降低企業成本;
② 在性能方面,實體核的倚天機型性能更高,CPU占用率更低;在EMR對倚天機型适配後,進行了 TPC-DS 的 Benchmark 測試,在G8Y與G7的對比中,同樣采用了六台8core 32G的機型,倚天的TPC-DS耗時減少25%。
6. 全新分析場景
EMR結合自身的技術優勢和實踐經驗,對大資料場景進行了分類,友善使用者快速建構适合業務的大資料叢集:
資料湖
- 資料湖叢集包含 Spark、Hive、Yarn、Presto、Hudi、Deltalake、RSS、Kyuubi 等元件;支援使用者建構資料倉庫,進行資料 ETL 以及資料湖分析。
實時資料流
- 實時資料流包含 Flink、Kafka 等元件;支援使用者進行實時計算,建構線上決策、實時監控、實時計算等系統。
資料分析
- 資料分析主要包含 StarRocks、Doris、ClickHouse 等元件;廣泛應用于使用者畫像分析,互動式分析,建構BI報表系統和對接業務系統。
資料服務
- 資料服務主要包含 Hbase、Phoenix 元件;支援時序資料分析、feeds流推送和使用者行為收集。
資料科學
- 資料科學主要包含 Tensorflow、PyTorch 元件;
- 面向機器學習、資料挖掘、特征模組化等場景。
對于部分客戶出于成本控制的考慮,希望将多種業務混部在一個叢集,EMR 還支援自定義叢集,可以将多種場景下的元件混合部署在一起。
以使用者使用最多的資料湖場景為例,EMR 在計算、存儲和治理方面都做了大量的優化。
①在存儲層面,EMR 推出 OSS-HDFS,可完全相容 HDFS API,使用者可以平滑的将 HDFS 遷移到 OSS 上;
② 在計算層面,計算任務無需二次開發,可以直接運作在存算分離的資料湖架構上;
③ 在1PB的場景下測算,經過合理的冷熱分層,可以節省40%的資源成本,同時計算資源也可以實作按需或者按負載彈性使用,大大降低了資源消耗;
④ 在計算引擎層面,EMR 對 Spark/Hive/Trino/StarRocks 等引擎進行優化,ETL 和分析場景下性能有明顯提升;
⑤ 在資料湖管理層面,DLF湖管理實作湖資料生命周期管理,包括:元數管理與服務、權限控制與審計、資料品質控制、湖表管理與優化、存儲管理與優化、全新資料遷移入湖。
3►
EMR2.0 從管控到引擎,從資源形态到應用場景都在積極創新,希望更好的解決使用者在開源大資料遇到的痛點問題。(來源:阿裡雲EMR2.0線上釋出會 )
保護聲明:本号選發有優質傳播價值的内容,可能會對内容做部分删節修改。我們極其尊重優質原創内容的版權,如本号所選内容未能聯系到原文作者本人,請作者和我們聯系。