1►

1. 開源大資料的痛點

如何提升性能，降低資源成本

全面的性能優化需要大量的研發投入且門檻較高；大資料資源使用量大，廣大使用者都在不斷探索降本方案。

如何降低運維成本

開源大資料元件衆多，開發上手相對容易，但是一旦業務規模和業務複雜度上升以後，所帶來的運維難度和開銷也随之急劇上升。

如何保障資料和任務的可靠性

資料是公司的無形資産，資料的丢失往往是災難性的，盡管有多副本，但是動辄幾十台，甚至上百台、上千台的伺服器在機器故障、叢集更新、遷移過程中要保障資料的可靠性是一件不容易的事，而成千上萬的任務實時或周期性的運作，也會消耗大量的運維投入。

如何管理資料開發和治理

實作團隊協同開發、安全合規的使用資料以及治理資料，也需要有方法論的支撐和産品支援。

2. EMR産品曆程

如下圖所示，自2016年阿裡雲推出EMR以來，阿裡雲EMR團隊一直緻力于解決以上痛點。

通過一系列的性能優化，阿裡雲在 CloudSort 和 TPC-DS 上取得了世界第一的成績，推出了全托管的中繼資料和資料湖産品，大大降低了運維難度和運維成本。

通過 DataWorks on EMR 以及 EMR Studio 等産品，大大簡化了資料開發以及資料治理的接入門檻。

2►

1. 概述

基于雲原生的理念和阿裡雲上日益成熟的設施，阿裡雲推出 EMR 2.0，建構新一代開源大資料的基礎設施。

EMR 2.0的新特征包括：

全新平台體驗

叢集建立速度2倍以上優化
叢集擴容速度3倍以上提升
彈性規模支援千台以上
故障節點遷移
叢集診斷工具

全新資料開發

全托管EMR Notebook (Jupyter)
Workflow (Dolphinscheduler)
資料開發治理平台Dataworks on EMR

全新資源形态

EMR on ECS，支援倚天g8，成本效益提升超過40%
EMR on ACK(K8s)
EMR Serverless

全新分析場景

新版資料湖
資料分析
資料服務
實時資料流
資料科學

2. EMR 2.0産品架構

如下圖所示，EMR 2.0産品架構自下而上包括：

硬體資源

EMR 2.0支援ECS（Intel, AMD, 倚天）/神龍/ECI

存儲資源

在存儲資源上，資料湖架構已經已經逐漸成為業界的共識，阿裡雲在對象存儲OSS 技術上更新為 OSS-HDFS 相容 HDFS API

排程資源

支援 EMR on ECS、EMR on ACK、EMR Serverless

管控平台

監控告警
彈性排程
叢集診斷
故障補償
權限&安全
元件管理

分析場景

新版資料湖 Datalake
資料分析 OLAP
實時資料流 Dataflow
資料服務 DataServing
資料科學 DataScience

開發工具

開源解決方案 EMR Studio (Notebook, Workflow)
企業級開發平台 DataWorks on EMR

中繼資料管理和湖管理

在原有的資料湖建構DLF上新增了權限生命周期管理、湖管理等新特性。

3. 全新平台體驗

阿裡雲EMR2.0 圍繞彈性
、穩定性、智能、效率四個方面對 EMR 進行了全面更新。

Elasticity 彈性

叢集建立，彈性性能大幅提升
異構執行個體，競價執行個體滿足個性化彈性需求

Stability 穩定性

節點遷移，故障節點自動補償
元件狀态巡檢，事件通知

Intelligence 智能

叢集資源診斷
風險預警
實時檢測

Efficiency 效率

互動式資料開發
一鍵任務送出
配置導出&叢集克隆

4. 全新資料開發

EMR 2.0提供兩套解決方案供不同使用者選擇，分别是：基于 Jupyter 和 DolphinScheduler 的 EMR Studio 開源解決方案，和阿裡雲自研的企業級資料開發與治理 DataWorks on EMR。

EMR Studio (Notebook, Workflow)

① 基于 Jupyter 的全托管SaaS化的 Notebook

a. 直接在EMR管控台頁面建立一個 notebook 并快速與EMR叢集進行關聯，幾分鐘内就可以開始對資料進行分析，無需擔心代碼的儲存以及計算資源維護；b. 對 Jupyter Notebook 進行了優化：如支援 StarRocks 快速指定引擎類型。

② 基于 Apache DolphinScheduler 的全托管SaaS化的 Workflow

a. 開箱即用，一鍵關聯叢集。

EMR Studio 提供了全新的開源資料開發體驗，在EMR服務費之外，不收取額外費用。

DataWorks on EMR，企業級資料開發與治理

DataWorks 是一套在阿裡内部曆經幾萬使用者十幾年打磨的産品，能夠滿足企業一站式資料開發和資料治理的訴求。DataWorks 支援資料內建、資料開發排程、資料模組化、資料品質、資料地圖、資料安全、資料分析、資料服務以及開放的API等能力：

資料內建：基于DataX，支援幾十種資料源作為 source 和 sink 進行資料同步；
資料開發：線上的 IDE，支援 Spark、Hive、Presto、ClickHouse 的開發；
資料品質：根據任務配置的規則，對任務的産出結果進行正确性驗證；
資料地圖：采集字段級粒度的資料血緣；
資料安全：提供表和字段級别的權限管理；
資料分析：提供快速互動式的分析和可視化分析能力；
資料服務：簡化資料查詢服務的開發，通過寫 SQL 就可以提供資料查詢的接口；
開發平台：提供一系列的 API 供使用者進行二次開發。

5. 全新資源形态

随着雲原生技術越來越成熟，EMR 也提供了各種資源管理形态。

EMR on ECS

支援元件最全，自定義能力最強；
跟傳統模式最接近，便于快速遷移。

EMR on ACK

完全相容 K8S，10秒級資源排程；
支援 Spark, Flink, Presto, RSS 元件；
配合 ECI，自動彈性，秒級擴容；
完整的任務送出、管理、監控能力。

EMR Serverless

首先推出的是 StarRocks；
全托管，最小化的運維成本；
高可用，SLA 99.99%；
開箱即用，對接 EMR Notebook；
成本低，按需擴容資源。

新硬體，倚天成本效益提升40%以上

在2022年雲栖大會上，阿裡雲推出了中國首個雲上大規模應用自研CPU倚天710，EMR2.0 也将推出倚天機型。倚天采用最先進的ARM架構和生産工藝，在通用智能性能提升的基礎上，降低了整體的資源成本：

① 在ECS價格方面，倚天G8系列較X86的機器系列價格降低20%以上，計算型系列價格降低超過30%，大幅降低企業成本；

② 在性能方面，實體核的倚天機型性能更高，CPU占用率更低；在EMR對倚天機型适配後，進行了 TPC-DS 的 Benchmark 測試，在G8Y與G7的對比中，同樣采用了六台8core 32G的機型，倚天的TPC-DS耗時減少25%。

6. 全新分析場景

EMR結合自身的技術優勢和實踐經驗，對大資料場景進行了分類，友善使用者快速建構适合業務的大資料叢集：

資料湖

資料湖叢集包含 Spark、Hive、Yarn、Presto、Hudi、Deltalake、RSS、Kyuubi 等元件；支援使用者建構資料倉庫，進行資料 ETL 以及資料湖分析。

實時資料流

實時資料流包含 Flink、Kafka 等元件；支援使用者進行實時計算，建構線上決策、實時監控、實時計算等系統。

資料分析

資料分析主要包含 StarRocks、Doris、ClickHouse 等元件；廣泛應用于使用者畫像分析，互動式分析，建構BI報表系統和對接業務系統。

資料服務

資料服務主要包含 Hbase、Phoenix 元件；支援時序資料分析、feeds流推送和使用者行為收集。

資料科學

資料科學主要包含 Tensorflow、PyTorch 元件；
面向機器學習、資料挖掘、特征模組化等場景。

對于部分客戶出于成本控制的考慮，希望将多種業務混部在一個叢集，EMR 還支援自定義叢集，可以将多種場景下的元件混合部署在一起。

以使用者使用最多的資料湖場景為例，EMR 在計算、存儲和治理方面都做了大量的優化。

①在存儲層面，EMR 推出 OSS-HDFS，可完全相容 HDFS API，使用者可以平滑的将 HDFS 遷移到 OSS 上；

② 在計算層面，計算任務無需二次開發，可以直接運作在存算分離的資料湖架構上；

③ 在1PB的場景下測算，經過合理的冷熱分層，可以節省40%的資源成本，同時計算資源也可以實作按需或者按負載彈性使用，大大降低了資源消耗；

④ 在計算引擎層面，EMR 對 Spark/Hive/Trino/StarRocks 等引擎進行優化，ETL 和分析場景下性能有明顯提升；

⑤ 在資料湖管理層面，DLF湖管理實作湖資料生命周期管理，包括：元數管理與服務、權限控制與審計、資料品質控制、湖表管理與優化、存儲管理與優化、全新資料遷移入湖。

3►

EMR2.0 從管控到引擎，從資源形态到應用場景都在積極創新，希望更好的解決使用者在開源大資料遇到的痛點問題。(來源:阿裡雲EMR2.0線上釋出會 )

保護聲明：本号選發有優質傳播價值的内容，可能會對内容做部分删節修改。我們極其尊重優質原創内容的版權，如本号所選内容未能聯系到原文作者本人，請作者和我們聯系。

阿裡雲 EMR 2.0：重新定義新一代開源大資料平台

2. EMR産品曆程

1. 概述

2. EMR 2.0産品架構

3. 全新平台體驗

4. 全新資料開發

5. 全新資源形态

6. 全新分析場景

繼續閱讀

智慧城市大資料平台資訊化建設行業智慧應用綜合解決方案（WORD）

大資料開發需要哪些工具？大資料開發必備工具彙總

客戶資料平台（CDP）全面解析

計算範式巨變前夜，雲器釋出多雲及一體化資料平台雲器 Lakehouse

基于HTML5的Web可視化大資料平台開發架構的實踐與性能優化

基于SVG、Echarts可視化元件的大資料平台前端開發性能優化與實作

縱觀今年DatabricksData+AI峰會，盡管宣傳的重心在AI上面，但實際釋出的AI産品并不多，“英文SDK”算是

大資料平台前端開發中基于流媒體的性能優化方法和實作技術

基于Echarts的實時地圖資料大資料平台系統設計與實作

基于HTML5和CSS3的大資料平台前端開發性能優化政策探讨

基于ECharts可視化元件的Web大資料平台前端開發性能優化與實作

智慧能源雲資料平台建設方案

MDM基礎資料平台日志功能介紹

基于AJAX和Echarts的大資料平台前端開發：代碼優化與效率提升

鄉村振興大資料平台建設方案(ppt)

scala 程式設計思想--第一部分