天天看點

阿裡雲 EMR 2.0:重新定義新一代開源大資料平台

1►

1. 開源大資料的痛點

  • 如何提升性能,降低資源成本

全面的性能優化需要大量的研發投入且門檻較高;大資料資源使用量大,廣大使用者都在不斷探索降本方案。

  • 如何降低運維成本

開源大資料元件衆多,開發上手相對容易,但是一旦業務規模和業務複雜度上升以後,所帶來的運維難度和開銷也随之急劇上升。

  • 如何保障資料和任務的可靠性

資料是公司的無形資産,資料的丢失往往是災難性的,盡管有多副本,但是動辄幾十台,甚至上百台、上千台的伺服器在機器故障、叢集更新、遷移過程中要保障資料的可靠性是一件不容易的事,而成千上萬的任務實時或周期性的運作,也會消耗大量的運維投入。

  • 如何管理資料開發和治理

實作團隊協同開發、安全合規的使用資料以及治理資料,也需要有方法論的支撐和産品支援。

2. EMR産品曆程

如下圖所示,自2016年阿裡雲推出EMR以來,阿裡雲EMR團隊一直緻力于解決以上痛點。

通過一系列的性能優化,阿裡雲在 CloudSort 和 TPC-DS 上取得了世界第一的成績,推出了全托管的中繼資料和資料湖産品,大大降低了運維難度和運維成本。

通過 DataWorks on EMR 以及 EMR Studio 等産品,大大簡化了資料開發以及資料治理的接入門檻。

阿裡雲 EMR 2.0:重新定義新一代開源大資料平台

2►

1. 概述

基于雲原生的理念和阿裡雲上日益成熟的設施,阿裡雲推出 EMR 2.0,建構新一代開源大資料的基礎設施。

EMR 2.0的新特征包括:

全新平台體驗

  • 叢集建立速度2倍以上優化
  • 叢集擴容速度3倍以上提升
  • 彈性規模支援千台以上
  • 故障節點遷移
  • 叢集診斷工具

全新資料開發

  • 全托管EMR Notebook (Jupyter)
  • Workflow (Dolphinscheduler)
  • 資料開發治理平台Dataworks on EMR

全新資源形态

  • EMR on ECS,支援倚天g8,成本效益提升超過40%
  • EMR on ACK(K8s)
  • EMR Serverless

全新分析場景

  • 新版資料湖
  • 資料分析
  • 資料服務
  • 實時資料流
  • 資料科學

2. EMR 2.0産品架構

如下圖所示,EMR 2.0産品架構自下而上包括:

阿裡雲 EMR 2.0:重新定義新一代開源大資料平台

硬體資源

  • EMR 2.0支援ECS(Intel, AMD, 倚天)/神龍/ECI

存儲資源

  • 在存儲資源上,資料湖架構已經已經逐漸成為業界的共識,阿裡雲在對象存儲OSS 技術上更新為 OSS-HDFS 相容 HDFS API

排程資源

  • 支援 EMR on ECS、EMR on ACK、EMR Serverless

管控平台

  • 監控告警
  • 彈性排程
  • 叢集診斷
  • 故障補償
  • 權限&安全
  • 元件管理

分析場景

  • 新版資料湖 Datalake
  • 資料分析 OLAP
  • 實時資料流 Dataflow
  • 資料服務 DataServing
  • 資料科學 DataScience

開發工具

  • 開源解決方案 EMR Studio (Notebook, Workflow)
  • 企業級開發平台 DataWorks on EMR

中繼資料管理和湖管理

  • 在原有的資料湖建構DLF上 新增了權限生命周期管理、湖管理等新特性。

3. 全新平台體驗

  • 阿裡雲EMR2.0 圍繞彈性
  • 、穩定性、智能、效率四個方面對 EMR 進行了全面更新。

Elasticity 彈性

  • 叢集建立,彈性性能大幅提升
  • 異構執行個體,競價執行個體滿足個性化彈性需求

Stability 穩定性

  • 節點遷移,故障節點自動補償
  • 元件狀态巡檢,事件通知

Intelligence 智能

  • 叢集資源診斷
  • 風險預警
  • 實時檢測

Efficiency 效率

  • 互動式資料開發
  • 一鍵任務送出
  • 配置導出&叢集克隆

4. 全新資料開發

EMR 2.0提供兩套解決方案供不同使用者選擇,分别是:基于 Jupyter 和 DolphinScheduler 的 EMR Studio 開源解決方案,和阿裡雲自研的企業級資料開發與治理 DataWorks on EMR。

EMR Studio (Notebook, Workflow)

① 基于 Jupyter 的全托管SaaS化的 Notebook

  • a. 直接在EMR管控台頁面建立一個 notebook 并快速與EMR叢集進行關聯,幾分鐘内就可以開始對資料進行分析,無需擔心代碼的儲存以及計算資源維護;b. 對 Jupyter Notebook 進行了優化:如支援 StarRocks 快速指定引擎類型。

② 基于 Apache DolphinScheduler 的全托管SaaS化的 Workflow

  • a. 開箱即用,一鍵關聯叢集。

EMR Studio 提供了全新的開源資料開發體驗,在EMR服務費之外,不收取額外費用。

阿裡雲 EMR 2.0:重新定義新一代開源大資料平台

DataWorks on EMR,企業級資料開發與治理

DataWorks 是一套在阿裡内部曆經幾萬使用者十幾年打磨的産品,能夠滿足企業一站式資料開發和資料治理的訴求。DataWorks 支援資料內建、資料開發排程、資料模組化、資料品質、資料地圖、資料安全、資料分析、資料服務以及開放的API等能力:

  • 資料內建:基于DataX,支援幾十種資料源作為 source 和 sink 進行資料同步;
  • 資料開發:線上的 IDE,支援 Spark、Hive、Presto、ClickHouse 的開發;
  • 資料品質:根據任務配置的規則,對任務的産出結果進行正确性驗證;
  • 資料地圖:采集字段級粒度的資料血緣;
  • 資料安全:提供表和字段級别的權限管理;
  • 資料分析:提供快速互動式的分析和可視化分析能力;
  • 資料服務:簡化資料查詢服務的開發,通過寫 SQL 就可以提供資料查詢的接口;
  • 開發平台:提供一系列的 API 供使用者進行二次開發。
阿裡雲 EMR 2.0:重新定義新一代開源大資料平台

5. 全新資源形态

随着雲原生技術越來越成熟,EMR 也提供了各種資源管理形态。

EMR on ECS

  • 支援元件最全,自定義能力最強;
  • 跟傳統模式最接近,便于快速遷移。

EMR on ACK

  • 完全相容 K8S,10秒級資源排程;
  • 支援 Spark, Flink, Presto, RSS 元件;
  • 配合 ECI,自動彈性,秒級擴容;
  • 完整的任務送出、管理、監控能力。

EMR Serverless

  • 首先推出的是 StarRocks;
  • 全托管,最小化的運維成本;
  • 高可用,SLA 99.99%;
  • 開箱即用,對接 EMR Notebook;
  • 成本低,按需擴容資源。
阿裡雲 EMR 2.0:重新定義新一代開源大資料平台

新硬體,倚天成本效益提升40%以上

在2022年雲栖大會上,阿裡雲推出了中國首個雲上大規模應用自研CPU倚天710,EMR2.0 也将推出倚天機型。倚天采用最先進的ARM架構和生産工藝,在通用智能性能提升的基礎上,降低了整體的資源成本:

① 在ECS價格方面,倚天G8系列較X86的機器系列價格降低20%以上,計算型系列價格降低超過30%,大幅降低企業成本;

② 在性能方面,實體核的倚天機型性能更高,CPU占用率更低;在EMR對倚天機型适配後,進行了 TPC-DS 的 Benchmark 測試,在G8Y與G7的對比中,同樣采用了六台8core 32G的機型,倚天的TPC-DS耗時減少25%。

阿裡雲 EMR 2.0:重新定義新一代開源大資料平台

6. 全新分析場景

EMR結合自身的技術優勢和實踐經驗,對大資料場景進行了分類,友善使用者快速建構适合業務的大資料叢集:

資料湖

  • 資料湖叢集包含 Spark、Hive、Yarn、Presto、Hudi、Deltalake、RSS、Kyuubi 等元件;支援使用者建構資料倉庫,進行資料 ETL 以及資料湖分析。

實時資料流

  • 實時資料流包含 Flink、Kafka 等元件;支援使用者進行實時計算,建構線上決策、實時監控、實時計算等系統。

資料分析

  • 資料分析主要包含 StarRocks、Doris、ClickHouse 等元件;廣泛應用于使用者畫像分析,互動式分析,建構BI報表系統和對接業務系統。

資料服務

  • 資料服務主要包含 Hbase、Phoenix 元件;支援時序資料分析、feeds流推送和使用者行為收集。

資料科學

  • 資料科學主要包含 Tensorflow、PyTorch 元件;
  • 面向機器學習、資料挖掘、特征模組化等場景。

對于部分客戶出于成本控制的考慮,希望将多種業務混部在一個叢集,EMR 還支援自定義叢集,可以将多種場景下的元件混合部署在一起。

阿裡雲 EMR 2.0:重新定義新一代開源大資料平台

以使用者使用最多的資料湖場景為例,EMR 在計算、存儲和治理方面都做了大量的優化。

①在存儲層面,EMR 推出 OSS-HDFS,可完全相容 HDFS API,使用者可以平滑的将 HDFS 遷移到 OSS 上;

② 在計算層面,計算任務無需二次開發,可以直接運作在存算分離的資料湖架構上;

③ 在1PB的場景下測算,經過合理的冷熱分層,可以節省40%的資源成本,同時計算資源也可以實作按需或者按負載彈性使用,大大降低了資源消耗;

④ 在計算引擎層面,EMR 對 Spark/Hive/Trino/StarRocks 等引擎進行優化,ETL 和分析場景下性能有明顯提升;

⑤ 在資料湖管理層面,DLF湖管理實作湖資料生命周期管理,包括:元數管理與服務、權限控制與審計、資料品質控制、湖表管理與優化、存儲管理與優化、全新資料遷移入湖。

阿裡雲 EMR 2.0:重新定義新一代開源大資料平台

3►

EMR2.0 從管控到引擎,從資源形态到應用場景都在積極創新,希望更好的解決使用者在開源大資料遇到的痛點問題。(來源:阿裡雲EMR2.0線上釋出會 )

保護聲明:本号選發有優質傳播價值的内容,可能會對内容做部分删節修改。我們極其尊重優質原創内容的版權,如本号所選内容未能聯系到原文作者本人,請作者和我們聯系。

繼續閱讀