资讯专栏INFORMATION COLUMN

基于平台的应急开机效率提升分享

IT那活儿 / 2804人阅读
基于平台的应急开机效率提升分享

点击上方“IT那活儿”公众号,关注后了解更多内容,不管IT什么活儿,干就完了!!!

本着业务连续性运维,如果不了解业务,那就是聋子的耳朵--白搭。本文给大家带来笔者日常工作中关于业务相关知识分享,以及在遇到问题后,如何基于平台沉淀场景的过程。希望对大家的一体化运维有所帮助和启发。



应急开机介绍


应急开机是当系统出现异常(例如缴费和开机积压)终端用户已正常缴费但仍然未复机情况下,强制生成开机工单给用户快速开机,恢复用户服务,以此保证客户终端使用,避免造成大规模终端用户投诉的一套程序。

应急开机涉及如下环节的检查和监控:
  • 应急进程检查:应急处理进程重启和检查;

  • 应急模式调整:常规应急模式需要根据字典组判断营业用户状态和停机锁,无条件应急模式不判断营业用户状态和停机锁直接开机;

  • 应急开机程序启动:待开机用户号码的提取、处理,如提取指定时间段的缴费用户、指定开机号码集合、指定时间段服务开通侧下发的停机指令用户;

  • 应急开机数据检查:检查应急开机扫描用户数据及其处理情况。各种业务开机工单指令的执行速度及积压检查,含语音、GPRS、VOLTE、非VOLTE、宽带、和TV、IMS等业务。用户开机是否成功,涉及MML(HLR)指令、SOAP协议(PROVISION平台)指令检查;

  • 应急用户状态同步:用户数据状态同步,用户的网络侧状态、平台侧状态、营业侧状态、账务侧状态保持一致;

  • 应急用户强制信控:强制信控数据的生成,对于应该停机而被开机的用户重新触发强制信控进行停机。

以上各环节监控,以前均是通过手工登录对应主机或者物理库执行监控脚本的形式进行检查;监控链条长,形式多样,纯手工操作容易形成顾头不顾尾的局面,导致部分节点遗漏监控,降低应急开机的及时性,使应急开机的效果大打折扣。



一次失败的故障处理


系统故障,需要马上执行应急开机,启动应急开机程序后,按照常规监控流程检查了应急数据的处理及下发,以为下发完成后用户全部开机完成了,但是遗漏了更下游环节的开机工单处理积压情况,由于工单积压导致用户并未全部及时开机完成,类似情况易引起次生故障。

因为手工监控耗时,所以故障处理时第一时间,每个人都只关注自己负责环节的数据处理情况,但是每个人自己所负责的环节数据处理完了不代表整个故障处理完了,不代表用户服务恢复正常了,因此需要快速掌握从应急程序启动到最终用户服务恢复之间所有环节的处理情况。

因此有必要摈弃手工执行监控脚本的方式,引入自动化脚本或者可视化页面的形式完成监控及流程处理。



自动化运维平台应急拓扑图介绍



自动化运维平台中的拓扑图模块完全具备使用拖拉拽节点的方式组合完整业务流程图,并在节点上展示监控数据,达到一站式展示应急开机程序启动后各个环节处理情况的目的。


如下图,展示的就是自动化运维平台上应急开机流程图:


该流程图把应急开机各个环节全部以节点的形式展示出来,如用户号码从提取到处理到工单执行到最终开机,并在节点上以指标和悬浮框的方式把监控数据直观展示出来,如处理进程的数量、应急模式是常规还是无条件、应急开机数据处理情况及处理量、工单积压情况及处理量、已开机用户量及随机抽查的号码,均可以在一张流程图上显示出来。

启动应急程序后,不再需要根据应急流程各个环节手工执行相应监控脚本,只需要打开该流程图即可清晰地看到各个环节处理情况,大幅节约了操作时间,更清晰地知道应急开机整体完成情况。

以平台为依托,把各环节的固定监控交给平台,从繁多的手工监控中抽身出来,更多关注业务层面的及时性,有效性,连续性以及故障的前因后果,持续将完整业务流程场景化可视化工作迭代下去。



本文作者:崔京梦(上海新炬王翦团队)

本文来源:“IT那活儿”公众号


文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/129243.html

相关文章

  • 阿里巴巴发布智能运维故障管理AI+生态计划

    摘要:开放生态计划,回馈社会阿里巴巴全球运行指挥中心掌门人沈乘黄首先分享了智能运维在阿里巴巴线上故障管理领域的应用经验。 摘要: 为响应马老师家国情怀,世界担当的号召,开放AI+生态计划,将让集团内部服务过程中积累下的技术与经验更好地回馈社会,任何企业或合作伙伴均可以简单方便的接入阿里巴巴智能故障管理平台,通过对接入数据的训练学习实时提供异常检测、关联分析、根因定位的能力,使原有的IT管理模...

    codecraft 评论0 收藏0
  • 为减少用户电话排队,阿里研发了智能客服调度系统

    摘要:今天,我们邀请阿里高级技术专家力君,为大家分享自动智能的客服调度系统。明确了客服调度的核心问题,也知道了难点,更看到了目前的现状后,我们决定打造一款自动智能的客服调度系统。 小叽导读:提到调度,大家脑海中可能想起的是调度阿里云的海量机器资源,而对于阿里集团客户体验事业群(CCO)而言,我们要调度的不是机器,而是客服资源。今天,我们邀请阿里高级技术专家力君,为大家分享自动、智能的客服调度...

    eechen 评论0 收藏0
  • 智慧园区三维可视化系统(附方案+源码)

    摘要:一,智慧园区建设的核心价值,三维可视化应用,未来智慧园区管理发展方向。,应急指挥预案可视化通过对应急预案的资源流程事件预案进行可视化管理,为园区重大危险事故提供高效调度指挥管理手段。获取智慧园区三维可视化系统源码 一,智慧园区建设的核心价值 1,三维可视化应用,未来智慧园区管理发展方向。  ...

    tanglijun 评论0 收藏0
  • 2019年微服务5大趋势,你pick哪个?

    摘要:趋势扩展到机器学习领域已经成为容器编排的事实标准,它的领域也在不断扩张,未来将成为机器学习技术栈的一部分。比如,发布了开源的,通过添加到集群中,扩展了的,使得机器学习的工作负载在中成为一等公民。 2018年对于微服务来说是非常重要的一年,这一年Service Mesh开始崭露头角,解决服务间复杂的通信问题,这一年很多国内互联网公司已经有了较为成熟的微服务实践案例,网易云主办的微服务实践...

    fanux 评论0 收藏0
  • 数字孪生——思考IoT未来,UINO2019展会邀您莅临!

    摘要:数字孪生思考未来,实现智能可视。同期将举行多场高端活动,共商物联网行业发展大计,集商贸交易展示交流活动宣传评优推介为一体的国际化盛会。 优锘科技作为互联网IT可视化管理和物联网IoT可视化管理领域的领导厂商,2019又将展开新系列市场活动,我们期待与业界专业人士共同探讨及交流行业最前沿的技术与趋势。showImg(https://segmentfault.com/img/bVbstwz...

    shinezejian 评论0 收藏0
  • 为减少用户电话排队,阿里研发了智能客服调度系统

    摘要:明确了客服调度的核心问题,也知道了难点,更看到了目前的现状后,我们决定打造一款自动智能的客服调度系统。对于社会化的云客服,我们可以做到,比如排队数超过某值时,自动触发云客服的应急放班。 背景 为什么客服需要调度?阿里集团客户体验事业群(CCO)目前承接了阿里集团以及生态体的客户服务业务,我们的客户通过各个渠道来寻求解决各类问题,每天的进线量巨大,而且经常伴随着突发性进线,比如天猫代金券...

    tinysun1234 评论0 收藏0

发表评论

0条评论

IT那活儿

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<