Oracle Listener连接风暴的分析

IT那活儿发布于2023-01-11 13:20 / 927人阅读

点击上方“IT那活儿”，关注后了解更多内容，不管IT什么活儿，干就完了！！！

研究背景

如果客户应用程序存在大量短连接，这会导致数据库、服务器资源飙升，并且会导致监听无法响应更多请求。

本次在测试环境上通过脚本模拟批量连接数据库，复现因连接风暴导致连接数据库报错ORA-12514: TNS:listener does not currently know of service requested in connect的场景并分析出导致连接风暴的应用服务名。

测试环境

1. 操作系统：redhat7

2. 数据库版本：19.3.0

3. 架构：单机

测试过程

1. 查看当前数据库参数

2. 编写脚本模拟批量连接-并发执行

编写conn连接脚本：

$vi conn.sh
sqlplus sys/system@192.168.10.130:1521/orcl as sysdba
select * from v$version;
exit;

$vi conn1.sh
sqlplus sys/system@192.168.10.130:1521/orcl1 as sysdba
select * from v$version;
exit;

$vi conn2.sh
sqlplus sys/system@192.168.10.130:1521/orcl2 as sysdba
select * from v$version;
exit;

编写后台并发执行脚本（connect.sh先执行5分钟，然后再执行connect1.sh）：

$vi connect.sh
for i in {1..200000}
do
for j in {1..40}
do
sh /home/oracle/conn.sh
done
done
EOF

$vi connect1.sh
for i in {1.. 200000}
do
for j in {1. .40}
do
sh /home/oracle/conn1.sh
done
done
EOF
…
$vi connect2.sh
for i in {1.. 200000}
do
for j in {1. .40}
do
sh /home/oracle/conn2.sh
done
done
EOF
…

3. 执行脚本并观察listener.log

执行脚本：

nohup sh connect.sh > /dev/null 2>&1&
nohup sh connect1.sh > /dev/null 2>&1&
nohup sh connect2.sh > /dev/null 2>&1&

观察listener.log。

出现大量ORA告警：

[oracle@orcl:/u01/app/oracle/diag/tnslsnr/orcl/listener/trace]$ tail -20f listener.log

接下来通过服务名登录数据库。

这时连接报错，已经复现出ORA-12514报错：

4. 通过监听日志分析是哪个服务名批量连接导致

将监听日志内容导入txt：

$grep 18-FEB-2022  listener.log | sed s/*.*SERVICE_NAME=/ /g;s/).*HOST=/ /g;s/).*$//g   | awk 
{if(NF==4){print "insert into t_tab 
values("$1","$2","$3","$4");"}}   > 
/home/oracle/insert.sql

建表并导入txt内容：

--a1 日期；
--a2 时间；
--a3 服务名；
--a4 客户端ip。

Create table t_tab( a1 varchar2(50),a2  varchar2(50),a3  varchar2(50),a4  varchar2(50));
@/home/oracle/insert.sql

按分钟进行统计个service发起的连接数：

select  a1,substr(a2,1,5),a3,count(1) from t_tab where a3 in (orcl,orcl1,orcl2) group by a1,substr(a2,1,5),a3 order by count(1) desc;

显然，orcl2这个service的连接异常导致本次问题的发生。

测试总结

本次模拟的重点在于通过3.4的方法将监听日志通过grep筛选数据并导入表，查询连接数据库报错的时间段去分析导致连接风暴的服务名称。

日常维护中通过tail -20f listener.log 观察，如持续性快速刷屏则可能已经出现连接风暴，因短连接持续性发起连接耗尽监听ip 1521端口资源，导致监听无法正常处理连接请求。超过每秒50次连接则需要关注。

本文作者：余家豪

本文来源：IT那活儿（上海新炬王翦团队）

云服务器 GPU云服务器 oracle_listener 阿里云服务器的oracle数据库连接不上 Listener oracle 连接

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/129601.html

发表评论

登陆后可评论

0条评论

IT那活儿

男|高级讲师

我要关注我要私信

TA的文章

消息中间件故障分析一例

阅读 1434·2023-01-11 13:20
RAC双节点crash回复一例

阅读 1792·2023-01-11 13:20
ORA-600处理一例

阅读 1248·2023-01-11 13:20
双节点RAC实例2 HANG 故障分析一例

阅读 1986·2023-01-11 13:20
RAC集群节点1重启分析一例

阅读 4207·2023-01-11 13:20
CRS启动报错CRS-1656处理分享

阅读 2848·2023-01-11 13:20
oracle 12CR2打补丁报错处理一例

阅读 1468·2023-01-11 13:20
分布式缓存组件故障分析及监控优化

阅读 3765·2023-01-11 13:20

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

Oracle Listener连接风暴的分析

点击上方“IT那活儿”，关注后了解更多内容，不管IT什么活儿，干就完了！！！

1. 查看当前数据库参数

2. 编写脚本模拟批量连接-并发执行

本文作者：余家豪

本文来源：IT那活儿（上海新炬王翦团队）

相关文章

发表评论

0条评论

IT那活儿

男|高级讲师

TA的文章

消息中间件故障分析一例

RAC双节点crash回复一例

ORA-600处理一例

双节点RAC实例2 HANG 故障分析一例

RAC集群节点1重启分析一例

CRS启动报错CRS-1656处理分享

oracle 12CR2打补丁报错处理一例

分布式缓存组件故障分析及监控优化

最新活动