prometheus专题—(十二) 采集job和instance

2021-12-09 23:50:00

instance

- 用Prometheus术语来说，可以抓取的端点称为实例 instance

job

- 具有相同目的的实例的集合（例如，出于可伸缩性或可靠性而复制的过程）称为job

## 

举例
  - job_name: 'pushgateway'
    honor_timestamps: true
    scrape_interval: 15s
    scrape_timeout: 10s
    metrics_path: /metrics
    scheme: http
    static_configs:
    - targets:
      - 172.20.70.205:9091
      - 172.20.70.205:9092
      - 172.20.70.215:9091

自动生成的标签和时间序列

当Prometheus抓取目标时，它会自动在抓取的时间序列上附加一些标签，以识别被抓取的目标：

- job：目标所属的已配置作业名称。
- instance：<host>:<port>抓取的目标网址的一部分。
- up{job="<job-name>", instance="<instance-id>"}：1实例是否正常（即可达）或0刮取失败。

- - - 设置告警查看采集失败的实例 `up==0`

- scrape_duration_seconds{job="<job-name>", instance="<instance-id>"}：刮擦的耗时

-

举例

scrape_duration_seconds{instance="172.20.70.205", job="blackbox-ssh"} 0.001817932
scrape_duration_seconds{instance="172.20.70.205:3000", job="single-targets"} 0.005416658
scrape_duration_seconds{instance="172.20.70.205:9091", job="pushgateway"} 0.002726714
scrape_duration_seconds{instance="172.20.70.205:9092", job="pushgateway"} 0.000506256
scrape_duration_seconds{instance="172.20.70.205:9100", job="single-targets"} 0.012790691
scrape_duration_seconds{instance="172.20.70.205:9104", job="single-targets"} 0.021421043
scrape_duration_seconds{instance="172.20.70.205:9115", job="blackbox-http-targets"} 0.00427973

用途：统计job中采集比较耗时的instance ,


- 为什么慢
  - 网络质量
  - metrics数据量太大
  - prometheus采集端有瓶颈了，需要扩容
- 上次采集最慢的五个 job+instance topk(5,scrape_duration_seconds)
- 采集时间超过3秒的 scrape_duration_seconds > 3



- scrape_samples_post_metric_relabeling{job="<job-name>", instance="<instance-id>"}：relabel之后剩余的重新标记后剩余的样本数
  - 何为样本：简单理解就是 标签组唯一 
- scrape_samples_scraped{job="<job-name>", instance="<instance-id>"}：目标暴露的样本数

举例 topk(5,scrape_samples_scraped)

scrape_samples_scraped{instance="172.20.70.205:9256", job="single-targets"} 1691
scrape_samples_scraped{instance="172.20.70.215:9256", job="single-targets"} 1010
scrape_samples_scraped{instance="172.20.70.205:9104", job="single-targets"} 816
scrape_samples_scraped{instance="172.20.70.215:9100", job="single-targets"} 500
scrape_samples_scraped{instance="172.20.70.205:9100", job="single-targets"} 500

用途：统计样本数量按 job+instance分类

按job排序 topk(5,sum(scrape_samples_scraped) by (job))

{job="single-targets"} 4957
{job="redis_exporter_targets"} 299
{job="pushgateway"} 102
{job="blackbox-http-targets"} 72
{job="blackbox-ssh"} 6

- scrape_series_added{job="<job-name>", instance="<instance-id>"}：此抓取中新系列的大概数量。v2.10的新功能
  - 用途 统计新增的metrics，可以用来查看写峰
  - 大部分情况应该都是旧的metrics append写入

#

prometheus特殊tag说明

- __address__ 采集endpoint的地址
- __name__   metrics 的名称
- instance   endpoint最后的tag
- job         任务
- __metrics_path__  采集的http path 如 /metrics  /cadvisor/metrics

prometheus专题—(十二) 采集job和instance

instance

job

自动生成的标签和时间序列

举例

举例 topk(5,scrape_samples_scraped)

prometheus特殊tag说明

继续阅读

统一观测丨使用 Prometheus 监控 Cassandra 数据库最佳实践

Kubernetes（通常缩写为K8s）是一个用于自动化部署、扩展和管理容器化应用程序的开源容器编排平台。它最初由Goo

「前端」Node.js 服务保姆级监控：带你体验 Prometheus 的魅力

统一观测丨借助 Prometheus 监控 ClickHouse 数据库

kubernetes 服务发现 Node_Exporter 监控 Kubernetes 集群节点

prometheus+consul服务发现

kube-state-metrics 常用指标及含义

统一观测｜借助 Prometheus 监控 ClickHouse 数据库

Spring Boot2 集成 Prometheus 和 Grafana 实现微服务监控入门一 Prometheus二 Grafana 三实现微服务监控

zabbix与prometheus的简单对比

Relabeling 重新标记

Eureka 注册、下线、续约事件的监听使用

Prometheus+Grafana+onealert---实现报警引言一、Grafana+onealert报警

Netty ：Netty介绍 & 实现简易多人聊天室

Spring Cloud Alibaba：搭建Nacos集群

IO模型浅析-阻塞、非阻塞、IO复用、信号驱动、异步IO、同步IO