天天看点

开发者社区精选直播合集(二十二)| Spark与其他产品的实践

往期精选合集包 (戳我前往) 囊括了:AI、架构师、 Serverless 、AIoT、DevOps、容器化、机器学习、云计算、K8s、微服务、云原生、视觉AI、大数据、小程序、物联网等各种主题直播合集。

Hologres系列课程(十二)Spark实时写入Hologres最佳实践

开发者社区精选直播合集(二十二)| Spark与其他产品的实践
>>戳我去观看

直播简介

本次主要介绍如何通过内置Spark Connector,将多种数据源数据高性能写入至hologres。

讲师介绍

张高迪(杳天),阿里巴巴开发工程师,长期从事Hologres引擎开发工作

阿里云EMR系列直播-EMR spark on ACK产品演示及最佳实践

开发者社区精选直播合集(二十二)| Spark与其他产品的实践

EMR on ACK是企业级半托管的开源大数据平台,为阿里云E-MapReduce(EMR)提供了一个部署选项,允许您在阿里云容器服务Kubernetes版 (ACK) 上运行开源大数据框架。 目前支持Spark引擎的部署,结合自研的Remote shuffle service服务组件,提供用户高稳定、高性价比、灵活的弹性计算服务。本次直播重点展开了该产品介绍和使用演示。

石磊(砳岩),阿里云技术专家

Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析

开发者社区精选直播合集(二十二)| Spark与其他产品的实践

Spark Shuffle RPMem扩展提供了一个基于PMem 和RDMA 来加速Shuffle的方案,它采用PMem 作为Shuffle的存储介质,利用PMDK 用户态编程库进行数据读写,减小用户态、内核态切换与文件系统开销;用基于RDMA网络协议异构的传输层实现高性能数据传输;还将RDMA直接注册在PMem上,减少内存拷贝。

本次直播介绍如何利用持久化内存与高性能RDMA 网络来加速Spark Shuffle。

张建,英特尔亚太研发有限公司大数据部门的软件工程经理,专注于大数据和机器学习中存储方案优化

OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能

开发者社区精选直播合集(二十二)| Spark与其他产品的实践

直播介绍

简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化,使用索引和缓存来解决交互式查询性能挑战。英特尔和社区合作,为Spark SQL实现了索引和数据源缓存,通过为关键查询列创建并存储完整的B +树索引,并使用智能的细粒度数据缓存策略,我们可以极大的提升基于Spark SQL的交互式查询的性能。

陈海锋,英特尔亚太研发有限公司大数据部门的高级软件架构师,开发经理,主要研究和关注基于Hadoop和Spark的大数据框架的分析和优化,Apache社区的长期贡献者。

沈祥翔,英特尔亚太研发有限公司大数据部门的高级软件工程师,主要担任OAP项目的开发。

基于Serverless 容器的Spark大数据分析最佳实践

开发者社区精选直播合集(二十二)| Spark与其他产品的实践

明誉 阿里云解决方案架构师

Spark on Apache Zeppelin 

开发者社区精选直播合集(二十二)| Spark与其他产品的实践

Apache Zeppelin 是一个交互式的大数据开发Notebook,从一开始就是为Spark定制的。Zeppelin Notebook的开发环境与传统IDE开发环境相比有几大优势:不需要编译Jar,环境配置简单,交互式开发,数据结果可视化等等。本次直播将会介绍Spark on Zeppelin的一些基本使用方式以及应用场景。

章剑锋(简锋),开源界老兵,Apache Member,曾就职于 Hortonworks,目前在阿里巴巴计算平台事业部任高级技术专家,并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ,以及 Apache Pig 的 Committer。

欢迎持续关注!将持续更新开发者社区精品直播内容!