摘要:线上运营的问题配置更新首先,配置修改问题。脚本每隔分钟执行一次,检查配置,生效。那怎么监控这一环呢自己弄了个模块,抽取内置的变量等等通过抽样上报给集群,利用根据业务,域名,路径等分类实时分组计算,按分钟纬度统计汇总。
背景
标题党了,现在不写个海量、高并发、大数据都不好意思发出来。
前面发了一个nginx的tips文章,一些基本的用法。这里主要说下nginx在多业务、大规模场景下的一些实践与问题。
首先,配置修改问题。1-2个业务,20台以下的nginx机器,人肉修改nginx配置没问题。但业务线拉长,业务需求多,需要一个配置管理系统统一按版本、下方配置。方便统一管理与记录。
然后,upstream后端机器扩缩容带来的变更。如果每次都需要人工修改配置下发,肯定会废掉。最好是有一个接口来做这个事情,貌似阿里的tengine已经实现了。
我这里是利用我厂内部的一个类dns的名字服务,自己写脚本实现的。大概步骤是:
nginx.tplt(nginx配置模版,upstream里配置名字服务的id) --->脚本处理翻译--> nginx标准配置文件
名字服务和内部云系统完全打通,upstream后端机器的变更可以实时的通过名字服务查询到。脚本每隔2分钟执行一次,nginx检查配置,reload生效。实现了后端自动扩缩容,nginx接入自动生效。
nginx监控缺失nginx自带的stats模块只能看全局的连接数,线上业务动辄上万QPS,开日志会浪费机器io,而且又带来一个新的问题: 日志管理。所以我线上默认全部关闭日志。那怎么监控nginx这一环呢?
自己弄了个nginx模块,抽取nginx内置的变量: upstream_addr, upstream_status, upstream_response_time, response_time, status,body_bytes_sent等等.通过udp抽样上报给storm集群,利用storm根据业务id,域名,api路径等分类实时分组计算,按5分钟纬度统计汇总。原始日志落地至hdfs,供故障定位时查看。
这样,每个业务的http状态码占比,upstream后端健康度都可以监控起来,并设置指标告警。
未完待续.....
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/39126.html
摘要:月日,首期沙龙海量运维实践大曝光在腾讯大厦圆满举行。六总结相关文章腾讯云运维干货沙龙海量运维实践大曝光二腾讯云运维干货沙龙海量运维实践大曝光三沙龙下载地址 作者丨郭智文:腾讯高级工程师,手机QQ运维负责人。多年来,对移动互联网应用的接入质量度量、优化有丰富的实践经验,专注于业务架构优化、弹性伸缩、运营服务管理、帮助产品打造极致的技术基础和质量口碑。 12月16日,首期沙龙海量运维实践大...
摘要:在当天的论坛上,除了解决大数据问题,云计算还促进了运营商新业务的拓展。因为云计算,大数据的广泛应用从而成为了可能。电信运营商已在更多地利用云计算将大数据转化为自己的业务竞争优势。 云计算和大数据这两个词已经更多地被放在一起讨论,而从应用角度看,大数据更能挑动用户的神经。目前,并不是所有的企业都面临着大数据的困扰,但是拥有着几千万甚至几亿客户的运营商,大数据所带来的问题日益显现。日前在Tera...
摘要:作者丨魏旸腾讯高级工程师,具有年运维经验的专家。月日,首期沙龙海量运维实践大曝光在腾讯大厦圆满举行。您也可以在腾讯织云公众号下载本次演讲。相关文章腾讯云运维干货沙龙海量运维实践大曝光一腾讯云运维干货沙龙海量运维实践大曝光三沙龙下载地址 作者丨魏旸:腾讯高级工程师,具有15年运维经验的专家。负责QQ空间、微云、QQ空间相册等的运维工作。 12月16日,首期沙龙海量运维实践大曝光在腾讯大厦...
阅读 2967·2021-09-28 09:42
阅读 3375·2021-09-22 15:21
阅读 1094·2021-07-29 13:50
阅读 3440·2019-08-30 15:56
阅读 3341·2019-08-30 15:54
阅读 1167·2019-08-30 13:12
阅读 1109·2019-08-29 17:03
阅读 1143·2019-08-29 10:59