某通信公司随着业务扩张和信息化发展迅速,目前共有服务器 3000+台,存储容量 50PB+, 依据未来规划各个机房中心需同步规划、同步扩容、同步运行,由集团IT云管理平台统一管理,将提供包括 X86 物理机、虚拟机、分布式块 存储、分布式文件存储、FC/IP SAN 存储、备份系统以及网络设备、安全设备、负载均衡设备等基础资源。届时庞大的基础设施资源的性能监控、资源管理是信息中心重点工作之一。
为了解决此问题,开发了智能化统一监控展示手段来完成资源的监控展示工作。智能化统一监控展示方案,能够自动的对资源进行持续的监控,实时获取资源的资源配置及性能数据,通过预警阀值的配置进行自动告警推送;同时通过大屏的方式对资源数据和性能数据进行直观的可视化展示,有效的提高监控工作的效率,同时实时、全景的展示给资源管理提供有力决策保障 。
2.1 开发部署监控代理工具
通过监控代理工具去发现及监控资源池资源信息。
上传“环境初始化脚本/deploy”这个目录和目录中所有文件;
安装执行脚本所需的依赖包,命令行运行:yum -y install dos2unix gcc-c++ zlib zlib-devel openssl-devel;
执行“环境初始化脚本/deploy/deploy.sh”,如脚本执行过程有提示缺依赖,直接通过yum安装缺失的依赖包;
资源大屏展示数据中心资源分布及使用情况
系统主机资源占比TOP5
说明:按业务系统维度统计各业务系统主机资源占比情况
系统告警分布TOP10
说明:按业务系统维度统计各业务系统的告警数量
系统平均响应时间趋势
说明:以时间趋势展示所有业务系统的平均响应时间
拨测实时图
说明:动态显示数据中心的网络延时情况,并以红/黄/绿三色动态显示
系统总可用率
说明:以5分钟作为一个周期,统计前一周期内各业务系统的可用率,以及所有业务系统的平均可用率
系统健康度
说明:统计各业务系统的系统健康度,以及所有业务系统的平均健康度
系统平均响应时间
说明:统计业务系统的平均响应时间,以及所有业务系统的平均响应时间
当前用户体验度
说明:统计业务系统的用户体验度,以及所有业务系统的用户体验度
系统近一月健康度趋势
说明:以时间趋势展示所有业务系统近一个月的健康度情况
系统近一月负载趋势
说明:以时间趋势展示系统所有主机近一个月的负载情况
系统近一月告警趋势
说明:以时间趋势展示系统所有告警的情况
1. 无agent采集
通过大屏的方式展示数据中心全景的资源使用状态及性能状态,帮助客户在更短的时间内掌握信息中心的资源信息,提供快速的决策能力。
更多精彩干货分享
点击下方名片关注
IT那活儿
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/129859.html
摘要:今天,阿里数据库事业部研究员张瑞,将为你讲述双数据库技术不为人知的故事。这十年,阿里巴巴数据库团队一直有一个使命推动中国数据库技术变革。 第十个双11即将来临之际,阿里技术推出《十年牧码记》系列,邀请参与历年双11备战的核心技术大牛,一起回顾阿里技术的变迁。 今天,阿里数据库事业部研究员张瑞,将为你讲述双11数据库技术不为人知的故事。在零点交易数字一次次提升的背后,既是数据库技术的一次...
摘要:明确了客服调度的核心问题,也知道了难点,更看到了目前的现状后,我们决定打造一款自动智能的客服调度系统。对于社会化的云客服,我们可以做到,比如排队数超过某值时,自动触发云客服的应急放班。 背景 为什么客服需要调度?阿里集团客户体验事业群(CCO)目前承接了阿里集团以及生态体的客户服务业务,我们的客户通过各个渠道来寻求解决各类问题,每天的进线量巨大,而且经常伴随着突发性进线,比如天猫代金券...
摘要:今天,我们邀请阿里高级技术专家力君,为大家分享自动智能的客服调度系统。明确了客服调度的核心问题,也知道了难点,更看到了目前的现状后,我们决定打造一款自动智能的客服调度系统。 小叽导读:提到调度,大家脑海中可能想起的是调度阿里云的海量机器资源,而对于阿里集团客户体验事业群(CCO)而言,我们要调度的不是机器,而是客服资源。今天,我们邀请阿里高级技术专家力君,为大家分享自动、智能的客服调度...
阅读 1250·2023-01-11 13:20
阅读 1559·2023-01-11 13:20
阅读 1013·2023-01-11 13:20
阅读 1680·2023-01-11 13:20
阅读 3972·2023-01-11 13:20
阅读 2520·2023-01-11 13:20
阅读 1356·2023-01-11 13:20
阅读 3486·2023-01-11 13:20