如何提升AnalyticDB实时写入性能

2021-11-14 07:50:54

从AnalyticDB写入原理分析，可以从三个方面提升AnalyticDB的写入能力：降低网络传输开销、减少与硬件设备io操作和尽量少消耗cpu资源。针对这三个特性本文将介绍如何对写入sql进行改造以达到最优性能。

采用批量写入（batch insert）模式，即每次在VALUES部分添加多行数据，一般建议每次批量写入数据量大约为16KB，以提高网络和磁盘吞吐。如下

如果对一行的所有列都进行插入，则去除col_name并保证values顺序与表结构中的col_name顺序一致，以降低网络带宽耗用。如下

保持主键相对有序。AnalyticDB的insert语句要求必须提供主键，且主键可以为复合主键。当确定复合主键时，根据业务含义调整复合主键中各个列的次序，从业务层面保证插入时主键是严格递增或近似递增的，也可以提升实时写入速度。

增加ignore关键字。执行不带ignore关键字的insert sql，当主键冲突时，后续数据会覆盖之前插入的数据；带上ignore关键字，则主键冲突时，会保留之前插入的数据而自动忽略新数据。如果业务层没有数据覆盖的语义要求，则建议所有insert sql都加上ignore关键字，以减小覆盖数据带来的性能开销。

AnalyticDB需要对数据进行分区存储，当一次Batch insert中含有属于不同分区的多行数据时，将会耗费大量CPU资源进行分区号计算。因此建议在写入程序中提前计算好每行数据的分区号，并且将属于同一分区的多行数据组成一个批次，一次性插入。

实现聚合写入目前主要有两种途径：

用户自行实现该聚合方法，对分区号的计算规则为：partition_num = CRC32(hash_partition_column_value) mod m，其中hash_partition_column_value是分区列的值，m是分区总数。如下代码

采用AnalyticDB搭配的同步工具”数据集成”进行实时数据同步。一般建议采用第二种方法。

如何提升AnalyticDB实时写入性能

继续阅读

Sql优化一：sql语句优化

SQL优化SQL语句优化的目的

Nacos 2.0 升级前后性能对比压测

JAVA高效编程指南

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

Storm编译打包过程中遇到的一些问题及解决方法

关于SQL语言

SQL语言基础：常用的数据查询语句

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

浅谈企业活动中进行数据分析的重要性

neo4j之cypher使用文档

Ambari介绍和架构原理

NOSQL安全攻击

sqlServer根据经纬查距离

win10本地scala和spark安装安装scala安装spark