资讯专栏INFORMATION COLUMN

日常巡检自动化

IT那活儿 / 1912人阅读
日常巡检自动化

点击上方“IT那活儿”公众号,关注后了解更多内容,不管IT什么活儿,干就完了!!!


  
作为运维人员,其中最基本一项职能职责针对网络、服务器等进行服务周期内的维护。

维护过程中,巡检是一项必不可缺少的工作。看似简单的巡检动作,在日常工作中尤为重要。

“日常巡检”是对相关设备进行日常的巡视和检查,发现隐患及时尽可能的去进行安全处理,尽可能的将该隐患处理在萌芽状态,就可以最大限度的减少该隐患带来不必要的损失。
本文主要介绍基于智慧运维平台(AMP)将日常巡检以及简单故障恢复实现自动化处理,并可在流程图上直观地看到是哪一步流程出错,从而进一步快速精准定位问题。
AMP平台简介
自动化运维管理平台--支撑八大运维场景自动化(如图所示),覆盖常见运维工作
灵活的可视化任务编排及调度,操作、资源、工具、人员的任意编排调度,构建多方位自动化能力。
内置大量运维操作原子场景,支持常见数据库、中间件、云平台、网络设备等运维操作自动化能力



实际场景--日常巡检之微服务和组件状态巡检以及故障恢复

1. 日常巡检自动化前

对于平台的各个微服务状态进行巡检需要登录服务器,进入指定目录,执行命令,查看各个微服务状态:
如果发现有服务状态时 No running状态还需要人工执行重启脚本进行针对性启动。
对于平台使用的组件状态进行巡检,例如kafka:
平台的kafka部署在三台服务器中,如果想要巡检三个kafka的状态时,最基础的方法是登录到每一个服务器上查看kafka的进程是否存在:
另外方法可以通过查看kafka组件信息和消费信息来确认三台kafka是否都属于正常状态:

1)查看kafka组信息

./bin/kafka-consumer-groups.sh --bootstrap-server ip:prot --list

2)查看消费信息

./bin/kafka-consumer-groups.sh --describe --bootstrap-server ip:prot --group 7a4f66af-a983-4a10-9a0c-19424ffcab3d

如果发现某一个kafka进程挂掉,需要登录到该服务器上执行重启脚本进行进程启动。
同时平台部署依赖的组件还有zookeeper、redis、Elasticsearch、nginx等。他们巡检的操作都和kafka 的巡检步骤相同或者类似。
如果按照最原始的巡检步骤进行巡检,那么将上述的所有微服务、组件巡检完成,费时费力。且是由于人工操作,会出现巡检漏掉、或者未注意等等问题。
所以为了减轻人工巡检时间,提高巡检效率,减少由人工巡检带来的问题。于是使用到了平台的调度功能来实现自动化巡检。

自动巡检结果流程图

需要做到上述的流程图的过程为:

  • 将微服务、组件所在服务器安装Agent并且纳入运维由平台进行管理;
  • 将各个微服务、组件的启动、查看状态等脚本分别配置在平台的操作中,即将服务器上的脚本复制到平台上一份,由平台来进行执行脚本;
  • 通过平台的调度功能进行将各个操作,通过逻辑关系串联在一起,即可形成上图的结构。
从该流程图上可以很明确清晰的看到在巡检过程中Elasticsearch、nginx两个组件进程异常,并通过了人工审核的步骤,再执行重启,重启完毕之后再次执行集群巡检,指导正常才通过。

2. 日常巡检自动化后

在巡检过程中不需要人工登陆服务器,完全在平台进行操作,避免巡检人员巡检不到位、误操作等问题,解决了传统巡检方式的弊端,在此优势之上,自动化巡检更能将每次巡检记录进行导出,为巡检人员制作巡检报告提供了可视化数据,使巡检报告脱离了繁琐单一的文字描述的层次。

本文首发于2021年9月16日。

本文作者:李伟业(上海新炬王翦团队)

本文来源:“IT那活儿”公众号


文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/129288.html

相关文章

  • 超帅!无人机巡检上海1.3万座玻璃幕墙的背后

    摘要:而其中执行玻璃幕墙自动巡检工作的正是合作伙伴狮尾智能研发的无人机。万座玻璃幕墙建筑自动巡检的背后目前,上海有近万座玻璃幕墙建筑,是世界上玻璃幕墙建筑数量最大的大都市之一。说到无人机第一个想到的会是什么?大多数人的回答可能是:航拍玩具但,无人机还能做些什么呢?来看看下边这个视频视频中,无人机正应用于上海玻璃幕墙建筑的日常自动巡检作业,帮助上海住建委完成玻璃幕墙高空风险的预警工作。而其中执行玻璃...

    Tecode 评论0 收藏0
  • 数据库管理平台NetopGO简介

    摘要:原文出自听云技术博客断断续续写了将近一个月,听云第一版数据库管理平台终于写完了,期间来来回回的改了好多次小毛病,现在已经部署到生产环境上去了。主机管理这里主要是主机列表管理和业务组列表管理。 原文出自【听云技术博客】:http://blog.tingyun.com/web/article/detail/600 断断续续写了将近一个月,听云第一版数据库管理平台终于写完了,期间来来回回的改...

    YacaToy 评论0 收藏0
  • 智慧园区三维可视化系统(附方案+源码)

    摘要:一,智慧园区建设的核心价值,三维可视化应用,未来智慧园区管理发展方向。,应急指挥预案可视化通过对应急预案的资源流程事件预案进行可视化管理,为园区重大危险事故提供高效调度指挥管理手段。获取智慧园区三维可视化系统源码 一,智慧园区建设的核心价值 1,三维可视化应用,未来智慧园区管理发展方向。  ...

    tanglijun 评论0 收藏0
  • 云计算的运维管理问题

    摘要:运行监控云计算的运维管理应从数据中心的日常监控人手,对日常维护管理事件管理变更管理以及应急预案管理等进行全方位的日常监控,以提前发现问题并消除隐患。自动化管理已然成为了当前云计算运维管理的一个必然发展趋势。从而有效实现云计算运维管理的改进。云计算在企业运营中的基本工作原理是将计算分布在大量分布式计算机中,从而使企业数据中心的运行和互联网更为相似。通过云计算的运维管理,企业不仅能够实现对IT资...

    CoderBear 评论0 收藏0

发表评论

0条评论

IT那活儿

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<