thanos receiver压测结果分享

2021-09-22 16:48:00

压测环境

查询表达式：

sum by (instance) (rate(http_requests_total{handler="receive",method="post",instance="$instance",code="200"}[1m]))*60

sum by () (rate(http_request_size_bytes_sum{instance="$instance"}[1m])/1024/1024)

sum by (code) (rate(http_requests_total{handler="receive",method="post",instance="$instance",code!="200"}[1m]))*60

sum by (instance) (rate(process_cpu_seconds_total{instance="$instance"}[1m]))*60

物理内存： sum by (instance) (max_over_time(process_resident_memory_bytes{instance="$instance"}[1m]))/1024/1024/1024
- 物理内存峰值：25.9GB
- 压测前的物理内存：13.8GB，内存上涨12.1GB
虚拟内存： sum by (instance) (max_over_time(process_virtual_memory_bytes{instance="$instance"}[1m]))/1024/1024/1024
thanos receiver的内存，并没有因为切换tsdb而明显的降低，没有请求后，内存释放得非常缓慢：

thanos receiver压测结果分享
- 从9:30~11:09，共100分钟内，内存从22.8GB减少到13.8GB，减少了9GB

prometheus_tsdb_head_samples_appended_total{instance="$instance"}

新增data point 85490118，平均 2590610/min, 43177/s

thanos receiver压测结果分享
sum by () (rate(prometheus_tsdb_head_samples_appended_total{instance="$instance"}[1m]))*60
峰值：4807544/min, 80126/s，可以认为thanos receiver单核的极限的处理data point的能力为8万每秒。

因为同样的数据文件发送了两次，所以time series的总数是一致的；time series总数达到 3934198
- 平均每个time series有 85490118 / 3934198 = 21.7 个data point(sample)

tsdb的两个参数： "--tsdb.min-block-duration=30m","--tsdb.max-block-duration=30m" ，因此14:29~14:49达到了tsdb切换的周期

thanos receiver压测结果分享
sum by () (rate(prometheus_tsdb_head_chunks_created_total{instance="$instance"}[1m]))*60

为什么只在没有请求的时候触发 compaction ?

thanos receiver压测结果分享
prometheus_tsdb_head_truncations_total{instance="$instance"}
truncate动作的执行规律，还没搞明白