使用 Prometheus 监控 Docker 容器

big_cat 发布于2019-06-28 14:52 / 1654人阅读

摘要：传统方法比如说你想监控你容器的内存使用率。不支持维度数据，这样一个名为的容器的指标，可能被称为。这是非常伟大并且有用的，但是有限制性。这个输出器使用容器的名字，和镜像作为维度。

本文的原作者是 johannes-fish-ziemke，原文地址是 http://5pi.de/2015/01/26/monitor-docker-containers-with-prometheus/

该文中介绍的 Prometheus 的项目地址是 https://prometheus.github.io/

监控 Docker

在容器中运行你所有的服务使得获取深度资源和运行特性成为可能，因为每个容器运行在它们自己的 cgroup 中并且 Linux 内核给我们提供了各种各样的指标（metrics）。

尽管有一些其他的 Docker 监控工具，我将给你们展示我为什么认为 SoundCloud 最新发布的 Prometheus 是最适合监控基于容器的基础架构。

Prometheus 特点是高维度数据模型，时间序列是通过一个度量值名字和一套键值对识别。灵活的查询语言允许查询和绘制数据。它采用了先进的度量标准类型像汇总（summaries），从指定时间跨度的总数构建比率或者是在任何异常的时候报警并且没有任何依赖，中断期间使它成为一个可靠的系统进行调试。

我会集中讲为什么该数据模型和查询语言如此贴合容器式和动态基础设施，对于这些基础设施，你应该想着整个服务集群而不是单个服务器实例，把服务器想成牛群中的牛而不是各家自养分散开的宠物。

传统方法

比如说你想监控你容器的内存使用率。不支持维度数据，这样一个名为 webapp123 的容器的指标，可能被称为 container_memory_usage_bytes_webapp123。

但是如果你想展示所有你的 webapp123 容器的内存利用率？更先进的监控解决方案像 graphite 支持这样。它的特性是层次，树状数据模型，这样的指标可能被称为 container.memory_usage_bytes.webapp123。现在你可以使用正则表达式像 container.memory_usage_bytes.webapp* 来绘制所有你的 ‘webapp’ 容器的内存使用率。Graphite 也支持函数像 sum() 来通过使用一个表达式像 sum(container.memory_usage_bytes.webapp*) 聚合你所有服务器上的应用的内存使用率。

这是非常伟大并且有用的，但是有限制性。如果你不想聚合一个给定名字的所有容器而是一个给定镜像的？或者你想把部署你的 canary 同在你生产环境的服务器对比？

可以为每个用例想出一个层次结构，但是没有一个支持它们。现实情况显示，你预先往往不知道哪个问题需要从新回答一次并且你开始研究。

Prometheus

Prometheus 支持维度数据，你可以拥有全局和简单的指标名像 container_memory_usage_bytes ，使用多个维度来标识你服务的指定实例。

我已经创建了一个简单的 container-exporter 来收集 Docker 容器的指标以及输出给 Prometheus 来消费。这个输出器使用容器的名字，id 和镜像作为维度。额外的 per-exporter 维度可以在 prometheus.conf 中设置。

如果你使用指标名字直接作为一个查询表达式，它将返回有这个使用这个指标名字作为标签的所有时间序列。

container_memory_usage_bytes{env="prod",id="23f731ee29ae12fef1ef6726e2fce60e5e37342ee9e35cb47e3c7a24422f9e88",instance="http://1.2.3.4:9088/metrics",job="container-exporter",name="haproxy-exporter-int",image="prom/haproxy-exporter:latest"}    11468800.000000  
container_memory_usage_bytes{env="prod",id="57690ddfd3bb954d59b2d9dcd7379b308fbe999bce057951aa3d45211c0b5f8c",instance="http://1.2.3.5:9088/metrics",job="container-exporter",name="haproxy-exporter",image="prom/haproxy-exporter:latest"}    16809984.000000  
container_memory_usage_bytes{env="prod",id="907ac267ebb3299af08a276e4ea6fd7bf3cb26632889d9394900adc832a302b4",instance="http://1.2.3.2:9088/metrics",job="container-exporter",name="node-exporter",image="prom/container-exporter:latest"}  
...
...

如果你运行了许多容器，这个看起来像这样

为了帮助你使得这数据更有意义，你可以过滤（filter） and/or 聚合（aggregate）这些指标。

切片 & 切块（Slice & Dice）

使用 Prometheus 的查询语言，你可以对你想的任何维度的数据切片和切块。如果你对一个给定名字的所有容器感兴趣，你可以使用一个表达式像 container_memory_usage_bytes{name="consul-server"}，这个将仅仅显示 name == "consul-server" 的时间序列。

Prometheus 也支持正则表达式，因此匹配完整的脚本你可以这样做 container_memory_usage_bytes{name=~"^consul"}，这将展示起来像这样：

你也使用使用任何维度过滤，因此你可以获取在一个给定主机，给定环境和给定区域上所有容器的指标。

聚合（Aggregation）

和 Graphite 类似，Prometheus 支持聚合函数但是它的维度更加丰富。使用 sum(container_memory_usage_bytes{name=~"^consul"}) 按预期汇总你所有 "consul-*" 的内存使用率。

现在比如说你想看你的 "consul" 和 "consul-server" 容器平均内存使用率的不同，这可以通过提供维度保存这聚合结果像 avg(container_memory_usage_bytes{name=~"^consul"}) by (name) 来实现：

如果你在多个区域有服务并且配置了区域名作为一个额外的标签对，你也可以保存维度来展示每个名字和区域的内存使用率，通过使用一个像这样的表达式 avg(container_memory_usage_bytes{name=~"^consul"}) by (name,zone)。

使用 Prometheus + Container-Exporter

正如你所知，我喜欢在容器中运行一切，包括 container-exporter 和 Prometheus，运行 container-exporter 应该是非常容易的：

docker run -p 8080:8080 -v /sys/fs/cgroup:/cgroup   
           -v /var/run/docker.sock:/var/run/docker.sock prom/container-exporter

现在你需要安装 Prometheus。关于这个参考官方文档。为了使得 Prometheus 从 container-exporter 拉取指标，你需要把它作为目标添加到配置。比如：

job: {  
  name: "container-exporter"
  scrape_interval: "1m"
  target_group: {
      labels: {
        label: {
            name: "zone"
            value: "us-east-1"
        }
        label: {
            name: "env"
            value: "prod"
        }
    }
    target: "http://1.2.3.4:8080/metrics"
  }
}

现在从新构建你的镜像如文档中描述的那样并启动它。Prometheus 现在应该每 60s 轮询你的 container-exporter。

总结

因为 Prometheus 的灵活性，它的性能和最小化依赖，它是我选择的监控系统。这就是为什么从去年起我介绍了 Prometheus 作为我们监控 Docker 的主要监控系统。

GPU云服务器云服务器 prometheus docker 容器容器 docker docker 最常用的监控方案

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/26362.html

Docker 监控- Prometheus VS Cloud Insight

摘要：由发明，适合于监控基于容器的基础架构。有关其数据聚合的功能可以阅读数据聚合分组新一代系统监控的核心功能。所抓取的性能指标算是较为全面，部署和展现方式都是相当简单易懂的。如今，越来越多的公司开始使用 Docker 了，2 / 3 的公司在尝试了 Docker 后最终使用了它。为了能够更精确的分配每个容器能使用的资源，我们想要实时获取容器运行时使用资源的情况，怎样对 Docker 上的应...

liuyix 2019-06-28 15:04 评论0 收藏0
Docker 监控实战

摘要：监控告警是运营系统最核心的功能之一，腾讯内部有一套很成熟的监控告警平台，而且开发运维同学已经习惯这套平台，如果我们针对容器再开发一个监控告警平台，会花费很多精力，而且没有太大的意义。也是一款付费监控解决方案，计划收费方案是美分小时。如今，越来越多的公司开始使用 Docker 了，现在来给大家看几组数据： 2 / 3 的公司在尝试了 Docker 后最终使用了它也就是说 Docker...

william 2019-06-28 15:04 评论0 收藏0
容器监控实践—Prometheus数据可视化

摘要：二可视化是一个开源的图表可视化系统，简单说图表配置比较方便生成的图表比较漂亮。一. 概述 Prometheus自带了一个web服务，包括一个默认的dashboard，可以使用表达式查询并进行图表可视化，默认服务的地址为：http://prometheus_ip:9090 如下图： showImg(https://segmentfault.com/img/remote/14600000...

URLOS 2019-07-01 17:38 评论0 收藏0
容器监控实践—Prometheus数据可视化

摘要：二可视化是一个开源的图表可视化系统，简单说图表配置比较方便生成的图表比较漂亮。一. 概述 Prometheus自带了一个web服务，包括一个默认的dashboard，可以使用表达式查询并进行图表可视化，默认服务的地址为：http://prometheus_ip:9090 如下图： showImg(https://segmentfault.com/img/remote/14600000...

赵连江 2019-06-28 17:08 评论0 收藏0
容器监控实践—Prometheus数据可视化

摘要：二可视化是一个开源的图表可视化系统，简单说图表配置比较方便生成的图表比较漂亮。一. 概述 Prometheus自带了一个web服务，包括一个默认的dashboard，可以使用表达式查询并进行图表可视化，默认服务的地址为：http://prometheus_ip:9090 如下图： showImg(https://segmentfault.com/img/remote/14600000...

dayday_up 2019-07-01 17:09 评论0 收藏0