往期精选合集包 (戳我前往) 囊括了:AI、架构师、 Serverless 、AIoT、DevOps、容器化、机器学习、云计算、K8s、微服务、云原生、视觉AI、大数据、小程序、物联网等各种主题直播合集。
Hologres系列课程(十二)Spark实时写入Hologres最佳实践
>>戳我去观看直播简介
本次主要介绍如何通过内置Spark Connector,将多种数据源数据高性能写入至hologres。
讲师介绍
张高迪(杳天),阿里巴巴开发工程师,长期从事Hologres引擎开发工作
阿里云EMR系列直播-EMR spark on ACK产品演示及最佳实践
EMR on ACK是企业级半托管的开源大数据平台,为阿里云E-MapReduce(EMR)提供了一个部署选项,允许您在阿里云容器服务Kubernetes版 (ACK) 上运行开源大数据框架。 目前支持Spark引擎的部署,结合自研的Remote shuffle service服务组件,提供用户高稳定、高性价比、灵活的弹性计算服务。本次直播重点展开了该产品介绍和使用演示。
石磊(砳岩),阿里云技术专家
Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析
Spark Shuffle RPMem扩展提供了一个基于PMem 和RDMA 来加速Shuffle的方案,它采用PMem 作为Shuffle的存储介质,利用PMDK 用户态编程库进行数据读写,减小用户态、内核态切换与文件系统开销;用基于RDMA网络协议异构的传输层实现高性能数据传输;还将RDMA直接注册在PMem上,减少内存拷贝。
本次直播介绍如何利用持久化内存与高性能RDMA 网络来加速Spark Shuffle。
张建,英特尔亚太研发有限公司大数据部门的软件工程经理,专注于大数据和机器学习中存储方案优化
OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能
直播介绍
简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化,使用索引和缓存来解决交互式查询性能挑战。英特尔和社区合作,为Spark SQL实现了索引和数据源缓存,通过为关键查询列创建并存储完整的B +树索引,并使用智能的细粒度数据缓存策略,我们可以极大的提升基于Spark SQL的交互式查询的性能。
陈海锋,英特尔亚太研发有限公司大数据部门的高级软件架构师,开发经理,主要研究和关注基于Hadoop和Spark的大数据框架的分析和优化,Apache社区的长期贡献者。
沈祥翔,英特尔亚太研发有限公司大数据部门的高级软件工程师,主要担任OAP项目的开发。
基于Serverless 容器的Spark大数据分析最佳实践
明誉 阿里云解决方案架构师
Spark on Apache Zeppelin
Apache Zeppelin 是一个交互式的大数据开发Notebook,从一开始就是为Spark定制的。Zeppelin Notebook的开发环境与传统IDE开发环境相比有几大优势:不需要编译Jar,环境配置简单,交互式开发,数据结果可视化等等。本次直播将会介绍Spark on Zeppelin的一些基本使用方式以及应用场景。
章剑锋(简锋),开源界老兵,Apache Member,曾就职于 Hortonworks,目前在阿里巴巴计算平台事业部任高级技术专家,并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ,以及 Apache Pig 的 Committer。
欢迎持续关注!将持续更新开发者社区精品直播内容!