摘要:集群三步安装概述应当是使用监控系统的最佳实践了,首先它一键构建整个监控系统,通过一些无侵入的手段去配置如监控数据源等故障自动恢复,高可用的告警等。。
kubernetes集群三步安装 概述
prometheus operator应当是使用监控系统的最佳实践了,首先它一键构建整个监控系统,通过一些无侵入的手段去配置如监控数据源等
故障自动恢复,高可用的告警等。。
不过对于新手使用上还是有一丢丢小门槛,本文就结合如何给envoy做监控这个例子来分享使用prometheus operator的正确姿势
至于如何写告警规则,如何配置prometheus查询语句不是本文探讨的重点,会在后续文章中给大家分享,本文着重探讨如何使用prometheus operator
prometheus operator安装sealyun离线安装包内已经包含prometheus operator,安装完直接使用即可
配置监控数据源原理:通过operator的CRD发现监控数据源service
apiVersion: apps/v1 kind: Deployment metadata: name: envoy labels: app: envoy spec: replicas: 1 selector: matchLabels: app: envoy template: metadata: labels: app: envoy spec: volumes: - hostPath: # 为了配置方便把envory配置文件挂载出来了 path: /root/envoy type: DirectoryOrCreate name: envoy containers: - name: envoy volumeMounts: - mountPath: /etc/envoy name: envoy readOnly: true image: envoyproxy/envoy:latest ports: - containerPort: 10000 # 数据端口 - containerPort: 9901 # 管理端口,metric是通过此端口暴露 --- kind: Service apiVersion: v1 metadata: name: envoy labels: app: envoy # 给service贴上标签,operator会去找这个service spec: selector: app: envoy ports: - protocol: TCP port: 80 targetPort: 10000 name: user - protocol: TCP # service暴露metric的端口 port: 81 targetPort: 9901 name: metrics # 名字很重要,ServiceMonitor 会找端口名
envoy配置文件:
监听的地址一定需要修改成0.0.0.0,否则通过service获取不到metric
/root/envoy/envoy.yaml
admin: access_log_path: /tmp/admin_access.log address: socket_address: protocol: TCP address: 0.0.0.0 # 这里一定要改成0.0.0.0,而不能是127.0.0.1 port_value: 9901 static_resources: listeners: - name: listener_0 address: socket_address: protocol: TCP address: 0.0.0.0 port_value: 10000 filter_chains: - filters: - name: envoy.http_connection_manager config: stat_prefix: ingress_http route_config: name: local_route virtual_hosts: - name: local_service domains: ["*"] routes: - match: prefix: "/" route: host_rewrite: sealyun.com cluster: service_google http_filters: - name: envoy.router clusters: - name: service_sealyun connect_timeout: 0.25s type: LOGICAL_DNS # Comment out the following line to test on v6 networks dns_lookup_family: V4_ONLY lb_policy: ROUND_ROBIN hosts: - socket_address: address: sealyun.com port_value: 443 tls_context: { sni: sealyun.com }使用ServiceMonitor
envoyServiceMonitor.yaml:
apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata: labels: app: envoy name: envoy namespace: monitoring # 这个可以与service不在一个namespace中 spec: endpoints: - interval: 15s port: metrics # envoy service的端口名 path: /stats/prometheus # 数据源path namespaceSelector: matchNames: # envoy service所在namespace - default selector: matchLabels: app: envoy # 选择envoy service
create成功后我们就可以看到envoy的数据源了:
然后就可以看到metric了:
然后就可以在grafana上进行一些配置了,promethues相关使用不是本文讨论的对象
告警配置 alert manager配置[root@dev-86-201 envoy]# kubectl get secret -n monitoring NAME TYPE DATA AGE alertmanager-main Opaque 1 27d
我们可以看到这个secrect,看下里面具体内容:
[root@dev-86-201 envoy]# kubectl get secret alertmanager-main -o yaml -n monitoring apiVersion: v1 data: alertmanager.yaml: Imdsb2JhbCI6IAogICJyZXNvbHZlX3RpbWVvdXQiOiAiNW0iCiJyZWNlaXZlcnMiOiAKLSAibmFtZSI6ICJudWxsIgoicm91dGUiOiAKICAiZ3JvdXBfYnkiOiAKICAtICJqb2IiCiAgImdyb3VwX2ludGVydmFsIjogIjVtIgogICJncm91cF93YWl0IjogIjMwcyIKICAicmVjZWl2ZXIiOiAibnVsbCIKICAicmVwZWF0X2ludGVydmFsIjogIjEyaCIKICAicm91dGVzIjogCiAgLSAibWF0Y2giOiAKICAgICAgImFsZXJ0bmFtZSI6ICJEZWFkTWFuc1N3aXRjaCIKICAgICJyZWNlaXZlciI6ICJudWxsIg== kind: Secret
base64解码一下:
"global": "resolve_timeout": "5m" "receivers": - "name": "null" "route": "group_by": - "job" "group_interval": "5m" "group_wait": "30s" "receiver": "null" "repeat_interval": "12h" "routes": - "match": "alertname": "DeadMansSwitch" "receiver": "null"
所以配置alertmanager就非常简单了,就是创建一个secrect即可
如alertmanager.yaml:
global: smtp_smarthost: "smtp.qq.com:465" smtp_from: "474785153@qq.com" smtp_auth_username: "474785153@qq.com" smtp_auth_password: "xxx" # 这个密码是开启smtp授权后生成的,下文有说怎么配置 smtp_require_tls: false route: group_by: ["alertmanager","cluster","service"] group_wait: 30s group_interval: 5m repeat_interval: 3h receiver: "fanux" routes: - receiver: "fanux" receivers: - name: "fanux" email_configs: - to: "474785153@qq.com" send_resolved: true
delete掉老的secret,根据自己的配置重新生成secret即可
kubectl delete secret alertmanager-main -n monitoring kubectl create secret generic alertmanager-main --from-file=alertmanager.yaml -n monitoring邮箱配置,以QQ邮箱为例
开启smtp pop3服务
照着操作即可,后面会弹框一个授权码,配置到上面的配置文件中
然后就可以收到告警了:
prometheus operator自定义PrometheusRule crd去描述告警规则
[root@dev-86-202 shell]# kubectl get PrometheusRule -n monitoring NAME AGE prometheus-k8s-rules 6m
直接edit这个rule即可,也可以再自己去创建个PrometheusRule
kubectl edit PrometheusRule prometheus-k8s-rules -n monitoring
如我们在group里加一个告警:
spec: groups: - name: ./example.rules rules: - alert: ExampleAlert expr: vector(1) - name: k8s.rules rules:
重启prometheuspod:
kubectl delete pod prometheus-k8s-0 prometheus-k8s-1 -n monitoring
然后在界面上就可以看到新加的规则:
探讨可加QQ群:98488045
公众号:文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/32814.html
摘要:集群三步安装概述应当是使用监控系统的最佳实践了,首先它一键构建整个监控系统,通过一些无侵入的手段去配置如监控数据源等故障自动恢复,高可用的告警等。。 kubernetes集群三步安装 概述 prometheus operator应当是使用监控系统的最佳实践了,首先它一键构建整个监控系统,通过一些无侵入的手段去配置如监控数据源等故障自动恢复,高可用的告警等。。 不过对于新手使用上还是有一...
摘要:,托管于腾讯云容器平台容器编排工具。适配我们目前的服务部署在腾讯云托管,节点使用核的网络增强型机器,所有的后端服务都以部署,集群外部署高可用支持集群内服务发现,数据库以为主,消息队列采用。 距离2017年的见闻技术架构调整接近2年,随着业务线的发展,见闻技术部的项目数量、项目架构类型、基础设施规模、服务变更频率都在不断地增长,带给SRE的挑战是如何能更快地助力于开发人员更快更稳定地部署...
摘要:同时有权限控制日志审计整体配置过期时间等功能。将成为趋势前置条件要求的版本应该是因为和支持的限制的核心思想是将的部署与它监控的对象的配置分离,做到部署与监控对象的配置分离之后,就可以轻松实现动态配置。 一.单独部署 二进制安装各版本下载地址:https://prometheus.io/download/ Docker运行 运行命令:docker run --name promet...
摘要:在第三部分中,我们将了解如何在服务网格中启用分布式跟踪。在此部署模型中,被部署为服务的在本例中为客户端。会在服务调用之间添加一些追踪,并发送到或您的跟踪提供商目前支持和。这些示例的上游服务是。 本博客是深入研究Envoy Proxy和Istio.io 以及它如何实现更优雅的方式来连接和管理微服务系列文章的一部分。 这是接下来几个部分的想法(将在发布时更新链接): 断路器(第一部分) ...
摘要:如果你是学生,计划参加,现在是审查项目构想,并与导师开始讨论的最佳时机。和大会日期会议日程通告日期年月日会议活动举办日期年月至日和赞助方案和多元化奖学金现正接受申请和即将首次合体落地中国和购票窗口,立即购票 showImg(https://segmentfault.com/img/bVbpnJA?w=1280&h=545); Google Summer of Code(GSoC)是面向...
阅读 2081·2021-11-22 15:22
阅读 1227·2021-11-11 16:54
阅读 1761·2021-09-23 11:32
阅读 2958·2021-09-22 10:02
阅读 1732·2019-08-30 12:59
阅读 1049·2019-08-29 16:27
阅读 581·2019-08-29 13:21
阅读 2429·2019-08-28 17:57