天天看点

MaxCompute2.0性能评测:更强大、更高效之上的更快速

       本次评测侧重于已发布的maxcompute2.0与离线处理同类竞品及线上稳定版本的性能对比,通过测试我们看到maxcompute2.0在功能上更强大、使用和发布更新更高效、开放生态的同时针对线上作业占比80%以上的sql以及其中占比约50%的sql离线批量计算性能有极大提升。

MaxCompute2.0性能评测:更强大、更高效之上的更快速

可以看到,在总体数据量t级别instance数量(百级别)情况,相同数据量相同数量的instance执行性能,maxcompute2.0执行的平均执行性能优于hive2.0ontez(hive2.0已调整最优):

              1- sum with group性能快速1倍

              2-sort-merge join提升约2倍以上

              3-hashjoin提升在1倍以上

              4-stremline提升50%以上

MaxCompute2.0性能评测:更强大、更高效之上的更快速

       为了保证数据的合理性,性能测试数据都是每个测试案例完成多轮测试的稳定值,测试搭建使用独立的性能评测集群,测试前清理恢复初始环境,多轮测试非连续执行,连续执行完整个测试集合后再执行下一轮的测试集合。

       图中整体对比数据为:

              1- maxcompute2.0离线计算比同类产品hive2.0 on tez性能优势快约90%以上

              2.maxcompute2.0执行95%以上基准sql执行比hive快,同时我们分析了内部执行细节,去除调度等其他消耗时间,maxcompute2.0针对执行的性能改进比hive2.0提升在114%以上

              3-maxcompute2.0比maxcompute1.0性能提升68%

              4-maxcompute2.0比hive2.0 on mr整体优势提升190%,其中77%的基准sql性能提升2x以上

MaxCompute2.0性能评测:更强大、更高效之上的更快速

              基于飞天的一代执行引擎性能有极大提升外,maxcompute2.0已上线的基于rbo和cbo执行性能优化:

              1- 裁剪规则:列裁剪、分区裁剪、子查询裁剪

              2- 下推/合并规则:谓词下推

              3- 去重规则:project去重、exchange去重、sort去重

              4- 常量折叠/谓词推导

              5- 关联优化:auto mapjoin、 skew join;实现broadcasthashjoin、shufflehashjoin、mergejoin;join reordering

              6- 聚合优化: hashaggregate、sortedaggregate、deduplicate

              7- 处理优化: groupby下推、exchange下推、sort下推

MaxCompute2.0性能评测:更强大、更高效之上的更快速