资讯专栏INFORMATION COLUMN

智能化统一监控大屏展示

IT那活儿 / 3233人阅读
智能化统一监控大屏展示
点击上方“IT那活儿”公众号,关注后了解更多内容,不管IT什么活儿,干就完了!!!
1

背景和思路

某公司随着业务扩张和信息化发展迅速,目前共有服务器 3000+台,存储容量 50PB+, 依据未来规划各个机房中心需同步规划、同步扩容、同步运行,由集团IT云管理平台统一管理,将提供包括 X86 物理机、虚拟机、分布式块 存储、分布式文件存储、FC/IP SAN 存储、备份系统以及网络设备、安全设备、负载均衡设备等基础资源。届时庞大的基础设施资源的性能监控、资源管理是信息中心重点工作之一

当前整个IT系统资源池的设备分布在2个物理数据中心、4个虚拟化集群、3000+多台操作系统、500+数据库/中间件,如何监控众多的物理设备、虚拟设备、数据库、中间件成为维护人员繁重而困难的工作,同时资源的有效管理和利用也是每天需要挑战的工作,针对虚拟化集群如何提供一个统一的监控方法和统一可视化展示资源、性能的数据成为急需解决的问题。

为了解决此问题,开发了智能化统一监控展示手段来完成资源的监控展示工作。

智能化统一监控展示方案,能够自动的对资源进行持续的监控,实时获取资源的资源配置及性能数据,通过预警阀值的配置进行自动告警推送;同时通过大屏的方式对资源数据和性能数据进行直观的可视化展示,有效的提高监控工作的效率,同时实时、全景的展示给资源管理提供有力决策保障 。


实施方案

2.1 设计原理

智能化统一监控展示方案,着力于监控资源的使用情况和性能数据,在自定义的监控周期内,对数据中心的资源进行监控,自动发现资源变化及性能状态,且通过自定义的告警功能对异常事件进行告警,及时推送到用户。
此外,通过可视化大屏的方式使数据可视化展示,将数据信息以直观的图表、图形表现形式实时为用户呈现全景的资源使用状态及性能状态,帮助客户在更短的时间内掌握信息中心的资源信息。

2.2 功能实现过程

1)开发部署监控代理工具

通过监控代理工具去发现及监控资源池资源信息:

  • 上传“环境初始化脚本/deploy”这个目录和目录中所有文件;

  • 安装执行脚本所需的依赖包,命令行运行:yum -y install dos2unix gcc-c++  zlib  zlib-devel  openssl-devel;

  • 执行“环境初始化脚本/deploy/deploy.sh”,如脚本执行过程有提示缺依赖,直接通过yum安装缺失的依赖包。

2)配置自动同步资源数据到监控系统

配置开启自动同步发现的资源数据到监控系统。
执行每个自发现任务:

3)实时采集性能数据

平台通过采集代理及监控模板的功能,实时的去采集性能数据,并存储到监控平台,供用户查看及为大屏提供数据来源。

4)自定义大屏展示图表

大屏功能模块具备自定义配置能力,提供各种图表给用户自定义展示内容,用户可根据实际情况动态调整大屏展示的数据模块及图形样式。

5)配置大屏数据来源

提供多种数据源供用户选择,可以根据图形的数据来源选择相应的类型与后台数据进行对接。

数据源列表:

  • API,支持括GET请求和POST请求;
  • ES,支持ES6.x版本;
  • 数据库,支持mysql/oracle/sqlserver/db2/postgressql;
  • 文件,支持csv/excel;
  • 静态数据,支持txt/json。
选择API接口,通过接口获取监控的资源和性能数据。

6)资源数据可视化展示

资源大屏展示数据中心资源分布及使用情况:
  • 运维资源分配汇总统计

    说明:统计各种运维资源的数量及占比情况;

  • 虚拟化中心资源占比统计

    说明:统计数据中心平台资源层各种应用/数据库资源的占比情况;

  • IT资产详情一览

    说明:统计数据中心IT资产的设备数量及使用情况;

  • 物理机分配情况

    说明:按业务系统维度统计各业务系统资源的占比情况;

  • 按主机维度统计各种应用/数据库资源的占比情况;

  • 业务系统主机资源汇总TOP10

    说明:排序统计各业务系统的主机数量,并展示top10;

  • 主机资源使用率TOP10

    说明:统计各主机的资源使用情况,并展示top10;

  • 业务系统资源统计TOP10

    说明:统计各业务系统中间件和数据库的数量,并展示top10;

  • 剩余资源可创建虚机数

    说明:统计虚拟化集群的CPU内存存储资源剩余情况,以及剩余资源还可能创建的虚机数量;

  • 设备品牌分布统计
    说明:按品牌维度统计设备的占比。

7)性能数据可视化展示

  • 系统主机资源占比TOP5

    说明:按业务系统维度统计各业务系统主机资源占比情况;
  • 系统告警分布TOP10

    说明:按业务系统维度统计各业务系统的告警数量;
  • 系统平均响应时间趋势

    说明:以时间趋势展示所有业务系统的平均响应时间;
  • 拨测实时图

    说明:动态显示数据中心的网络延时情况,并以红/黄/绿三色动态显示;
  • 系统总可用率

    说明:以5分钟作为一个周期,统计前一周期内各业务系统的可用率,以及所有业务系统的平均可用率;
  • 系统健康度

    说明:统计各业务系统的系统健康度,以及所有业务系统的平均健康度;
  • 系统平均响应时间

    说明:统计业务系统的平均响应时间,以及所有业务系统的平均响应时间;
  • 当前用户体验度

    说明:统计业务系统的用户体验度,以及所有业务系统的用户体验度;
  • 系统近一月健康度趋势

    说明:以时间趋势展示所有业务系统近一个月的健康度情况;
  • 系统近一月负载趋势

    说明:以时间趋势展示系统所有主机近一个月的负载情况;

  • 系统近一月告警趋势

    说明:以时间趋势展示系统所有告警的情况。



实施技术点

3.1 无agent采集

通过代理的方式采集监控数据,无需在被监控端安装插件,降低了对监控对像的影响。

3.2 自动发现资源

通过自发现的功能去自动发现虚拟集群的资产数据并通过映射关系自动纳入监控,无需人工去梳理资源情况,自发现回来的资源自动归纳分类,对资源的数量及分布情况一目了然。

3.3 实时性、灵活性更强

监控模块通过自定义的方式为每一个监控项自定义监控周期,7X24小时无间断进行监控采集,同时若监控到异常,能够快速通过告警功能通知到相关负责人。

3.4 结果更加直观

通过大屏的方式展示数据中心全景的资源使用状态及性能状态,帮助客户在更短的时间内掌握信息中心的资源信息,提供快速的决策能力。



应用情况

目前2个数据中心,4个虚拟化集群已纳入到通过统一监控展示平台,且正常运行。

在此平台未部署之前,要了解数据中心的资源情况需要人工查阅cmdb配置表,且虚拟化集群资源的动态变化情况无法实时同步到资源配置表,无法实时掌握资源情况,数据中心的设备业务性能情况也无法得到监控。智能化统一监控展示方案,解决了此问题,使得监控工作能够更高效的开展,同时通过大屏的方式提高了数据的展现能力。
智能化统一监控展示方案提供了丰富的监控能力,降低了对监控设备的影响,同时提高了监控数据展示能力,具有较高的实用价值。


本文作者:刘 东(上海新炬王翦团队)

本文来源:“IT那活儿”公众号

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/129270.html

相关文章

  • 阿里数据库十年变迁,那些你不知道的二三事

    摘要:今天,阿里数据库事业部研究员张瑞,将为你讲述双数据库技术不为人知的故事。这十年,阿里巴巴数据库团队一直有一个使命推动中国数据库技术变革。 第十个双11即将来临之际,阿里技术推出《十年牧码记》系列,邀请参与历年双11备战的核心技术大牛,一起回顾阿里技术的变迁。 今天,阿里数据库事业部研究员张瑞,将为你讲述双11数据库技术不为人知的故事。在零点交易数字一次次提升的背后,既是数据库技术的一次...

    greatwhole 评论0 收藏0
  • 网络安全态势可视化

    摘要:安全态势可视化系统的目的是生成网络安全综合态势图,以多视图多角度多尺度的方式与用户进行交互。可以看到,黑客攻击是无处不在,无时不有的,世界互联网的安全态势并不如我们印象中那么隐蔽和少见。 导语 网络态势可视化技术作为一项新技术,是网络安全态势感知与可视化技术的结合,将网络中蕴涵的态势状况通过可视化图形方式展示给用户,并借助于人在图形图像方面强大的处理能力,实现对网络异常行为的分析和检测...

    testHs 评论0 收藏0
  • 为减少用户电话排队,阿里研发了智能客服调度系统

    摘要:明确了客服调度的核心问题,也知道了难点,更看到了目前的现状后,我们决定打造一款自动智能的客服调度系统。对于社会化的云客服,我们可以做到,比如排队数超过某值时,自动触发云客服的应急放班。 背景 为什么客服需要调度?阿里集团客户体验事业群(CCO)目前承接了阿里集团以及生态体的客户服务业务,我们的客户通过各个渠道来寻求解决各类问题,每天的进线量巨大,而且经常伴随着突发性进线,比如天猫代金券...

    tinysun1234 评论0 收藏0
  • 为减少用户电话排队,阿里研发了智能客服调度系统

    摘要:今天,我们邀请阿里高级技术专家力君,为大家分享自动智能的客服调度系统。明确了客服调度的核心问题,也知道了难点,更看到了目前的现状后,我们决定打造一款自动智能的客服调度系统。 小叽导读:提到调度,大家脑海中可能想起的是调度阿里云的海量机器资源,而对于阿里集团客户体验事业群(CCO)而言,我们要调度的不是机器,而是客服资源。今天,我们邀请阿里高级技术专家力君,为大家分享自动、智能的客服调度...

    eechen 评论0 收藏0

发表评论

0条评论

IT那活儿

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<