Docker 监控- Prometheus VS Cloud Insight

liuyix 发布于2019-06-28 15:04 / 2076人阅读

摘要：由发明，适合于监控基于容器的基础架构。有关其数据聚合的功能可以阅读数据聚合分组新一代系统监控的核心功能。所抓取的性能指标算是较为全面，部署和展现方式都是相当简单易懂的。

如今，越来越多的公司开始使用 Docker 了，2 / 3 的公司在尝试了 Docker 后最终使用了它。为了能够更精确的分配每个容器能使用的资源，我们想要实时获取容器运行时使用资源的情况，怎样对 Docker 上的应用进行监控呢？Docker 的结构会不会加大监控难度？

可是在没有专业运维团队来监控 Docker 的情况下，并且还想加快 Docker 监控的日程，怎么办呢？

我们通过调查了解到几种不错的 Docker 监控方法，其中 Prometheus 和 Cloud Insight 让人很感兴趣。

Prometheis

先来说说一套开源的 Docker 监控方案：Prometheus；而此篇文字的原文地址：Monitor Docker Containers with Prometheus。

Prometheus 由 SoundCloud 发明，适合于监控基于容器的基础架构。Prometheus 特点是高维度数据模型，时间序列是通过一个度量值名字和一套键值对识别。灵活的查询语言允许查询和绘制数据。它采用了先进的度量标准类型像汇总（summaries），从指定时间跨度的总数构建比率或者是在任何异常的时候报警并且没有任何依赖，中断期间使它成为一个可靠的系统进行调试。

Prometheus 支持维度数据，你可以拥有全局和简单的指标名像 container_memory_usage_bytes ，使用多个维度来标识你服务的指定实例。

我已经创建了一个简单的 container-exporter 来收集 Docker 容器的指标以及输出给 Prometheus 来消费。这个输出器使用容器的名字，id 和镜像作为维度。额外的 per-exporter 维度可以在 prometheus.conf 中设置。

如果你使用指标名字直接作为一个查询表达式，它将返回有这个使用这个指标名字作为标签的所有时间序列。

container_memory_usage_bytes{env="prod",id="23f731ee29ae12fef1ef6726e2fce60e5e37342ee9e35cb47e3c7a24422f9e88",instance="http://1.2.3.4:9088/metrics",job="container-exporter",name="haproxy-exporter-int",image="prom/haproxy-exporter:latest"}    11468800.000000`  

container_memory_usage_bytes{env="prod",id="57690ddfd3bb954d59b2d9dcd7379b308fbe999bce057951aa3d45211c0b5f8c",instance="http://1.2.3.5:9088/metrics",job="container-exporter",name="haproxy-exporter",image="prom/haproxy-exporter:latest"}    16809984.000000` 

container_memory_usage_bytes{env="prod",id="907ac267ebb3299af08a276e4ea6fd7bf3cb26632889d9394900adc832a302b4",instance="http://1.2.3.2:9088/metrics",job="container-exporter",name="node-exporter",image="prom/container-exporter:latest"}  `

...
...

如果你运行了许多容器，这个看起来像这样：

为了帮助你使得这数据更有意义，你可以过滤（filter） and/or 聚合（aggregate）这些指标。

使用 Prometheus 的查询语言，你可以对你想的任何维度的数据切片和切块。如果你对一个给定名字的所有容器感兴趣，你可以使用一个表达式像 container_memory_usage_bytes{name="consul-server"}，这个将仅仅显示 name == "consul-server" 的时间序列。

像多维度的数据模型，来实现数据聚合、分组、过滤，不单单是 Prometheus。OpenTSDB 和 InfluxDB 这些时间序列数据库和系统监控工具的结合，让系统监控这件事情变得更加的多元。

接下来，我们为大家介绍国内一家同样提供该功能的监控方案：Cloud Insight。有关其数据聚合的功能可以阅读：数据聚合 & 分组：新一代系统监控的核心功能。

现在我们来对比 Prometheus 和 Cloud Insight 在数据聚合、分组（切片）上的展现效果和功能。

数据聚合

根据不同的 Container Name 或 Image Name 对内存使用量或 Memeory Cache 进行聚合。

数据分组（切片）

根据不同的 Container Name 或 Image Name 对内存使用量或 Memeory Cache进行分组（切片）。

Cloud Insight

Cloud Insight 支持多种操作系统、云主机、数据库和中间件的监控，原理是在平台服务仪表盘和自定义仪表盘中，采集并处理 Metric，对数据进行聚合与分组等计算，提供曲线图、柱状图等多样化的展现形式。优点是监控的指标很全，简单易用，也可以期待一下。

Cloud Insight 监控 Docker 试验

我们用 AcmeAir 作为试验的应用，AcmeAir 是一款由原 IBM 新技术架构部资深工程师 Andrew Spyker，利用 Netflix 开源的 Netflix OSS 打造的开源电子商务应用。

首先，我们要打开 Cloud Insight 监控，还好 Cloud Insight 安装简单，一条命令即可。接着，我们新建一个用于此次监控的仪表盘，依次将想要获取的指标统统添加进去。

我们添加了以下指标：

docker.cpu.user

docker.cpu.sysytem

docker.containers.running

jvm.heap_memory

jvm.non_heap_memory

jvm.gc.cms.count

jvm.heap_memory_max

jvm.gc.parnew.time

应用 Acme 部署在四台 servers 上，我们开启四台 servers, 然后用 JMeter 给应用加压。

随着时间 JMeter 不断给应用加压，当 users 人数达到188时，我们再来看一下仪表盘的视图。

从图中可以看到，性能数据发生了变化，根据 JMeter 里的数据，此时 CPU 占用超过了50%，错误率也有所提升；对比来看，根据 Cloud Insight 里的曲线显示，蓝色的线所代表的 Container CPU 占用率已经超过50%，逐渐接近75%，系统剩余的 CPU 资源逐渐下降，该 Container 的系统 CPU 资源消耗也突然增大。我们可以通过这些定位到 CPU 占用率过高的 Container ，及时而主动地去了解性能瓶颈，从而优化性能，合理分配资源。Cloud Insight 所抓取的性能指标算是较为全面，部署和展现方式都是相当简单易懂的。

总结

Docker 兼容相比其他的数据库、系统、中间件监控，要复杂一些。由于需要表征不同 Container 的性能消耗，来了解不同应用的运行情况，所以数据的聚合、切片（分组）和过滤，在 Docker 监控中成为了必备功能。

所以我们推荐使用了时间序列数据库，或者类似设计逻辑的监控方案，如：Prometheus 和 Cloud Insight。

而 Docker 单方面的监控，可能不太满足一些大型公司的需求，如果一个工具在监控 Docker 同时能够监控其他组件，那就更好了。

国外出现了 Graphite、Grafana 和 Host Graphite，能够让用户将不同数据来源都集中在同一个地方进行展现；而国内 Cloud Insight 似乎也是这样的思路。

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/26500.html

Docker 监控实战

摘要：监控告警是运营系统最核心的功能之一，腾讯内部有一套很成熟的监控告警平台，而且开发运维同学已经习惯这套平台，如果我们针对容器再开发一个监控告警平台，会花费很多精力，而且没有太大的意义。也是一款付费监控解决方案，计划收费方案是美分小时。如今，越来越多的公司开始使用 Docker 了，现在来给大家看几组数据： 2 / 3 的公司在尝试了 Docker 后最终使用了它也就是说 Docker...

william 2019-06-28 15:04 评论0 收藏0
斌哥的 Docker 进阶指南—监控方案的实现

摘要：本文转自刘斌博文如何选择监控方案，文中刘斌从技术的角度深入解释了监控的数据采集原理，介绍了现有开源的监控方案，以及能够对进行监控功能的主流服务工具。下一章，刘斌将为大家介绍监控的开原方案，主流服务，及其特点。过去的一年中，关于 Docker 的话题从未断过，而如今，从尝试 Docker 到最终决定使用 Docker 的转化率依然在逐步升高，关于 Docker 的讨论更是有增无减。另一...

X_AirDu 2019-06-28 15:10 评论0 收藏0
用 OneAPM Cloud Insight 监控 Docker 性能

摘要：虽然这是监测最简单的方法，但之后我们还会提供在容器中监控所有运行的软件的探针版本，敬请期待。仪表盘通过标签订制指标在中，您可以在自定义仪表盘中基于一个或多个标签来显示指标。报警在定义跨越集群容器的警报是非常有用的。 Docker 是构建和部署软件的一个新兴的轻量级的平台，也是一个减轻替代虚拟机的容器。Docker 通过给开发者提供兼容不同环境的镜像，成为解决现代基础设施的持续交付的一个...

leon 2019-06-28 15:03 评论0 收藏0
几种 Docker 监控工具对比

摘要：在我们列举的几个监控的服务或平台中，这是唯一一款国内产品。也是一款付费监控解决方案，计划收费方案是美分小时。同样也支持监控，还包括对容器级事件的监测停止开始等等和管理容器产生的日志。由于是一个监控方案，相对来说它的安装和部署都比较简单。轻量级虚拟化容器 Docker，自发布以来便广受业界关注，在开源界和企业界掀起了一阵风。Docker 容器相对于 VM 有以下几个优势：启动速度快；资...

张春雷 2019-06-28 15:04 评论0 收藏0
运维 2.0 时代：数据聚合和分组

摘要：灵活查询，聚合分组并存除开单纯的聚合和分组，还支持聚合和分组的复合查询。所以，与会聚合为一条曲线，而和的关系则是分组的关系。当然，的功能在未来，还远远不止这些，高效运维的时代才刚刚开启。运维 2.0 时代运维 2.0 是指，从技术运维升级为服务运维，向公司提供可依赖的专业服务。运维 2.0 强调服务交付能力，而不是技术能力，需求可依赖、懂业务、服务化的专业运维。为了了解运维 2....

skinner 2019-05-28 16:58 评论0 收藏0