摘要:也有幸和全球说运维负责人李云伟先生进行一次深入沟通。面临挑战全球说的应用主要是在线系统和移动为主。是北京科技有限公司旗下产品,中国首个模式的,集成国内外主流监控支撑系统,实现一个平台上集中处理所有事件,提升可靠性。
客户背景
「全球说」 Talkmate,是北京酷语时代教育科技有限公司(酷语科技)旗下产品,酷语科技是一家诞生于中国的语言技术公司,致力于为全球用户提供一个全新的多语言学习和社交网络平台 。
全球说是典型的快速发展初创企业,心怀理想,恰如其创始人温荣辉提到:
全球说希望带给用户的是文化、朋友和旅游的快乐,而不是让用户为了学习语言去学习语言。我们希望能把所有语言囊括进来,容纳世界各地的人。我们想成为一家「社会企业」。
丰满理想需要团队和 IT 系统的支撑,特别是全球说的用户群全球化特征, IT 支撑还是非常重要的。 OneAlert 也有幸和全球说运维负责人李云伟先生进行一次深入沟通。
面临挑战全球说的 IT 应用主要是在线系统和移动 APP 为主。
Web 网站
移动 APP
调用 PHP 研发,提供相关 API
常见的中间件 MongoDB , Memcache 等
服务器规模: 20 台左右(随业务增长不断增加),分布式部署(国际服务器)。
使用流行的开源监控工具 Zabbix 。
全球说虽然作为初创公司,但是 IT 系统是五脏俱全,具备随着业务增长快速扩展的特性,同时运营支撑压力不小。
李云伟先生面临运维挑战是:
运维人员比较少的情况下如何在手机上能够快速获知当前 IT 告警,方便及时处理告警?
使用 Zabbix 的原有告警存在以下问题:
邮件通知需要搭建邮件服务,配置相对复杂,而且邮件的接收存在较大延迟。
没有短信通知,需要对接短信网关,需要开发,目前人力资源紧张,耗时耗力。
为什么会选择 OneAlert ?
OneAlert 是目前国内领先的 SaaS 云告警,简单快捷接入,无需复杂配置,或者开发介入,节省人力和成本。
OneAlert 提供的解决方案部署简单:目前已经支持国内外主流10多种工具告警接入,包括阿里云、腾讯云、VMWare 等云平台,以及 OneAPM、监控宝、Solarwinds、Zabbix、Nagios、Open-Falcon 等监控工具 。基本上仅需要5-10分钟即可以完成配置。
通知必达:提供了微信、短信、邮件、电话、移动 APP、网页等6个渠道发送告警通知,实现告警通知必达。
移动化:微信已成为我们日常生活和工作标配,OneAlert 让告警事件在拇指尖就可以完成确认处理。
通知升级:个人可设置几种渠道的通知方法,如告警发生后即刻微信/邮件/APP 通知,1分钟后告警无响应,则电话通知。基本上哪怕是大半夜在睡觉,也可以叫醒。如果手机停机?没问题,自动升级提醒其他同学,直到有人响应告警为止。
客户反馈更快响应,提升业务可靠性。拿着手机就可以处理所有告警,所有信息都通过手机推送过来,特别是微信的信息很全。
通知升级能够不遗漏告警,平时微信通知,但是短信和电话避免告警被遗漏。
全球说运维负责人李云伟先生说:
因为使用开源的监控软件,可以很容易的编写各类监控插件,报警的及时性就成为我们的迫切需求,OneAlert 云告警让我们的报警系统有了及时准确的报警保障,让我们可以有更多的时间完善其他运维系统,特别是最近推出的电话报警,更是能够保证每一个重要的报警都能够通知到人,没有遗漏,这个服务我要点100个赞。
OneAlert 是北京|5814788f931161e2ec1ae7ed970a76055|科技有限公司旗下产品,中国首个 SaaS 模式的|5814788f931161e2ec1ae7ed970a76056|,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有IT事件,提升IT可靠性。想了解更多信息,请访问 OneAlert 官网 。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/7929.html
摘要:平均解决事件解决时间是衡量业务准备的最佳标准。平均每小时折合损失。说明整个团队的响应及时率是不错的。小结致力减少告警数量及时响应如果不能及时响应,能够升级处理,最终提升解决时间,个核心关键指标是运维支撑工作非常关键的指标。 很难说,生活在这个数据大爆炸的时代对运维同学是福还是祸。灵活的监控系统、开放 API 和易用的数据可视化资源可以将任何想要的数据图表化地显示出来,但是,过多的数据容...
摘要:前言告警将重要信息发送给运维或者其他相关人,及时发现并且处理问题。在所有开源监控软件里面,的告警方式无疑是最棒的。在发生告警之后立即发送邮件和微信消息给用户,分钟后还未确认,那么发送短信,分钟还未确认则打电话给用户。 1. 前言 告警将重要信息发送给运维「或者其他相关人」,及时发现并且处理问题。在所有开源监控软件里面,Zabbix 的告警方式无疑是最棒的。告警的方式各式各样,从 Ema...
摘要:或参考集成安装文档通过微信报警提供脚本命令插件,通过新增用户通知的方式,调用命令将告警通知发送至云告警平台,根据通知策略,分派和通知到用户,提供微信短信电话和邮件方式。 引言 Nagios 作为业界非常强大的一款开源监视系统。 监控网络服务(SMTP、POP3、HTTP、NNTP、PING 等); 监控主机资源(处理器负荷、磁盘利用率等); 简单地插件设计使得用户可以方便地扩展自己服...
摘要:为了掌握你的告警事件响应时间,在你已经开始处理告警时,强烈建议及时响应认领,例如通过移动端微信页面移动等方式及时认领。这一点国外做的很棒,在短信电话移动都可以很容易确认认领在微信端可以认领和关闭。 这是《运维不容错过的4个关键指标》的姐妹篇,上篇文章介绍了优秀运维团队需要关注的4个关键指标,我们分享了平均恢复时间 MTTR、平均响应时间 MTTA 等概念。这篇是介绍一些实践方法,更好的...
摘要:解决突发事故意味着什么通常认为解决突发事故是积极举措。以平均恢复前时间为评估手段可能会掩饰警示,将红灯变为安全的绿灯。迅速解决突发事故是否总是最佳选择在领域,仅评估影响业务正常运行的时间无异于给婴儿浸有白兰地的奶嘴。 在团队纷纷谈起工作效率的时候,对运维工作者,他们通常喜欢用「故障的平均解决时间」来衡量团队的工作效率。然而这往往是不正确的。一个迅速解决大量突发事故的团队十分高效,而实际...
阅读 1647·2019-08-30 15:55
阅读 971·2019-08-30 15:44
阅读 864·2019-08-30 10:48
阅读 2023·2019-08-29 13:42
阅读 3178·2019-08-29 11:16
阅读 1233·2019-08-29 11:09
阅读 2051·2019-08-26 11:46
阅读 609·2019-08-26 11:44