通过分析故障时间点数据库ASH、AWR报告、OSW日志信息:
1、 故障期间主机CPU资源高消耗、RUN队列持续增高
2、 故障时间段数据库状态分析
故障时间段数据库语句执行情况:
故障时间段数据库TopSQL信息:
TopSQL语句信息:
略
异常时间段fyh80hwbv7gna、5vsxm0s8ps2j6语句高并发情况:
同比8月29日TopSQL语句执行次数突增近10倍:
总结:本次故障原因为“fyh80hwbv7gna”、“5vsxm0s8ps2j6”语句异常高并发调用、导致数据库主机CPU资源高消耗,数据库服务响应时间延长。
解决方案:
本次解决方案分为两个方面:
1. 针对异常SQL语句进行执行性能优化;
优化分析:
异常期间fyh80hwbv7gna语句执行2300次,平时10次 "分析和优化:分页查询总条数,1.SE_XX系列表统计信息不对 se_pretask_info查询条件like全通配导致执行计划基数估算不准(实际小于10条,实际返回5000次,应该走NESTED LOOPS的走了HASH JOIN)。
优化建议:
收集SE_XX系列表统计信息并使用SQL PROFILE绑定,逻辑读436w 执行时间16s,高频运行会导致CPU使用满 ,同时存在大量分页语句汇总,未使用绑定变量。
优化效果:
fyh80hwbv7gna语句逻辑读:436w--->5800 执行时间:16s-->0.3s 效率提升50倍以上。
gyk0u596xt7c7语句逻辑读:363w——>25000,执行时间:11s—》1.6s,效率提升6倍以上。
2. 核查应用运行情况,确认异常调用根本原因。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/130242.html
摘要:当奥巴马赢得美国总统大选时,页面活跃度刷新了记录。对于每一个成因,都应制定相应的预防措施,以减轻大规模事故。这种故障会通过许多层面进入系统服务中,导致系统故障的发生。 作者介绍:Ben Maurer是Facebook的网络基础团队的技术领先者,主要负责整个Facebook面向用户产品的性能和可靠性。Ben于2010年正式加入Facebook,基础设施团队的成员。在加入Facebook之...
摘要:仪表板是一个附加组件,它能提供集群上运行的资源的概述信息。可以很容易地创建图形,并且把它们合并称仪表板,而这些仪表板由一个强大的身份验证和授权层保护,它们还可以和其他仪表板进行共享而不需要访问服务器本身。 介 绍 Kubernetes在Github上拥有超过4万颗星,7万以上的commits,以及像Google这样的主要贡献者。Kubernetes可以说已经快速地接管了容器生态系统,成...
摘要:谷歌在万台机器的区间内,他们中位数集群尺寸大约在万台机器,也有一些更大的。谷歌称,一个单独的其专有的分配集群的首脑在一个谷歌对于集群的术语内能管理成千上万台机器。 【文章简介】本文讨论了单个容器所无法解决的问题和局限性,并介绍了容器编排的必要性和复杂性及常用工具的比较,提到了诸如Kubernetes、Mesos等容器管理工具。 就像之前已被证实的那样,要在一个机器上创建成千上万个容器还...
摘要:资源包括什么内存磁盘网络文件描述符外部缓存数据库等,编程语言是如何管理资源的合理的算法架构保证了资源的合理使用,分配内存使用网络等等。 在云计算时代,开发和运维的结合变得越来越重要。在DIFF论坛第一期,前新浪SAE运维主管,郑志勇,分享了《一个开发眼中的运维》根据自己从开发人员转型运维之后的心得,谈如何把在开发上的运用抽象思维方式运用到运维领域。 showImg(http://se...
摘要:且过多的从服务器,当业务量大时对主服务器的网卡也是一定的挑战。我们可以通过对集群的监控信息来了解是什么影响了数据库性能。 关于数据库性能的故事 面试时多多少少会讲到数据库上的事情,你对数据库的掌握如何?,什么时候最考验数据库的性能,答应主要方面上讲就是大数据量的读写时,而电商类的大促活动就是考验各自的数据库性能的时候啦。 对于web服务器而言,数据量大时,我们可以简单的通过横向扩展来减...
阅读 1247·2023-01-11 13:20
阅读 1555·2023-01-11 13:20
阅读 1008·2023-01-11 13:20
阅读 1675·2023-01-11 13:20
阅读 3968·2023-01-11 13:20
阅读 2510·2023-01-11 13:20
阅读 1305·2023-01-11 13:20
阅读 3474·2023-01-11 13:20