摘要:支持消息删除业务使用方,可以随时删除指定消息。消息传输可靠性消息进入到延迟队列后,保证至少被消费一次。
延迟队列,顾名思义它是一种带有延迟功能的消息队列。 那么,是在什么场景下我才需要这样的队列呢?
一、背景先看看一下业务场景:
1.会员过期前3天发送召回通知
2.订单支付成功后,5分钟后检测下游环节是否都正常,比如用户购买会员后,各种会员状态是否都设置成功
3.如何定期检查处于退款状态的订单是否已经退款成功?
4.实现通知失败,1,3,5,7分钟重复通知,直到对方回复?
通常解决以上问题,最简单直接的办法就是定时去扫表。
扫表存在的问题是:
1.扫表与数据库长时间连接,在数量量大的情况容易出现连接异常中断,需要更多的异常处理,对程序健壮性要求高
2.在数据量大的情况下延时较高,规定内处理不完,影响业务,虽然可以启动多个进程来处理,这样会带来额外的维护成本,不能从根本上解决。
3.每个业务都要维护一个自己的扫表逻辑。 当业务越来越多时,发现扫表部分的逻辑会重复开发,但是非常类似
延时队列能对于上述需求能很好的解决
二、调研调研了市场上一些开源的方案,以下:
1.有赞科技:只有原理,没有开源代码
2.github个人的:https://github.com/ouqiang/de...
1.基于redis实现,redis只能配置一个,如果redis挂了整个服务不可用,可用性差点
2.消费端实现的是拉模式,接入成本大,每个项目都得去实现一遍接入代码
3.在star使用的人数不多,放在生产环境,存在风险,加之对go语言不了解,出了问题难以维护
3.SchedulerX-阿里开源的: 功能很强大,但是运维复杂,依赖组件多,不够轻量
4.RabbitMQ-延时任务: 本身没有延时功能,需要借助一特性自己实现,而且公司没有部署这个队列,去多带带部署一个这个来做延时队列成本有点高,而且还需要专门的运维来维护,目前团队不支持
基本以上原因打算自己写一个,平常使用php多,项目基本redis的zset结构作为存储,用php语言实现 ,实现原理参考了有赞团队:https://tech.youzan.com/queui...
三、目标轻量级:有较少的php的拓展就能直接运行,不需要引入网络框架,比如swoole,workman之类的
稳定性:采用master-work架构,master不做业务处理,只负责管理子进程,子进程异常退出时自动拉起
可用性:
1.支持多实例部署,每个实例无状态,一个实例挂掉不影响服务
2.支持配置多个redis,一个redis挂了只影响部分消息
3.业务方接入方便,在后台只需填写相关消息类型和回掉接口
拓展性: 当消费进程存在瓶颈时,可以配置加大消费进程数,当写入存在瓶颈时,可增加实例数写入性能可线性提高
实时性:允许存在一定的时间误差。
支持消息删除:业务使用方,可以随时删除指定消息。
消息传输可靠性:消息进入到延迟队列后,保证至少被消费一次。
写入性能:qps>1000+
四、架构设计与说明总体架构
采用master-work架构模式,主要包括6个模块:
1.dq-mster: 主进程,负责管理子进程的创建,销毁,回收以及信号通知
2.dq-server: 负责消息写入,读取,删除功能以及维护redis连接池
3.dq-timer-N: 负责从redis的zset结构中扫描到期的消息,并负责写入ready 队列,个数可配置,一般2个就行了,因为消息在zset结构是按时间有序的
4.dq-consume-N: 负责从ready队列中读取消息并通知给对应回掉接口,个数可配置
5.dq-redis-checker: 负责检查redis的服务状态,如果redis宕机,发送告警邮件
6.dq-http-server: 提供web后台界面,用于注册topic
五、部署环境依赖:PHP 5.4+ 安装sockets,redis,pcntl,pdo_mysql 拓展
create database dq; #存放告警信息 CREATE TABLE `dq_alert` ( `id` int(11) NOT NULL AUTO_INCREMENT, `host` varchar(255) NOT NULL DEFAULT "", `port` int(11) NOT NULL DEFAULT "0", `user` varchar(255) NOT NULL DEFAULT "", `pwd` varchar(255) NOT NULL DEFAULT "", `ext` varchar(2048) NOT NULL DEFAULT "", PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=utf8; #存放redis信息 CREATE TABLE `dq_redis` ( `id` int(11) NOT NULL AUTO_INCREMENT, `t_name` varchar(200) NOT NULL DEFAULT "", `t_content` varchar(2048) NOT NULL DEFAULT "", PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=14 DEFAULT CHARSET=utf8; #存储注册信息 CREATE TABLE `dq_topic` ( `id` int(11) NOT NULL AUTO_INCREMENT, `t_name` varchar(1024) NOT NULL DEFAULT "", `delay` int(11) NOT NULL DEFAULT "0", `callback` varchar(1024) NOT NULL DEFAULT "", `timeout` int(11) NOT NULL DEFAULT "3000", `email` varchar(1024) NOT NULL DEFAULT "", `topic` varchar(255) NOT NULL DEFAULT "", `createor` varchar(1024) NOT NULL DEFAULT "", `status` tinyint(4) NOT NULL DEFAULT "1", `method` varchar(32) NOT NULL DEFAULT "GET", PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=6 DEFAULT CHARSET=utf8;
在DqConf.php文件中修改php了路径 $logPath
命令:
php DqHttpServer.php --port 8088
访问:http://127.0.0.1:8088,出现配置界面
redis信息格式:host:post:auth 比如 127.0.0.1:6379:12345
php DqInit.php --port 6789
看到如下信息说明启动成功
addServer($server); $topic ="order_openvip_checker"; //topic在后台注册 $id = uniqid(); $data=array( "id"=>$id, "body"=>array( "a"=>1, "b"=>2, "c"=>3, "ext"=>str_repeat("a",64), ), //可选,设置后以这个通知时间为准,默认延时时间在注册topic的时候指定 "fix_time"=>date("Y-m-d 23:50:50"), ); //添加 $boolRet = $dqClient->add($topic, $data); echo "add耗时:".(msectime() - $time)."ms "; //查询 $time = msectime(); $result = $dqClient->get($topic, $id); echo "get耗时:".(msectime() - $time)."ms "; //删除 $time = msectime(); $boolRet = $dqClient->del($topic,$id); echo "del耗时:".(msectime() - $time)."ms ";
执行php test.php
默认日志目录在项目目录的logs目录下,在DqConf.php修改$logPath
1.请求日志:request_ymd.txt
2.通知日志:notify_ymd.txt
3.错误日志:err_ymd.txt
1.系统会自动检测配置文件新,如果有改动,会自动退出(没有找到较好的热更新的方案),需要重启,可以在crontab里面建个任务,1分钟执行一次,程序有check_self的判断
2.优雅退出命令: master检测侦听了USR2信号,收到信号后会通知所有子进程,子进程完成当前任务后会自动退出
ps -ef | grep dq-master| grep -v grep | head -n 1 | awk "{print $2}" | xargs kill -USR2六、性能测试
需要安装pthreads拓展:
测试原理:使用多线程模拟并发,在1s内能成功返回请求成功的个数
php DqBench concurrency requests concurrency:并发数 requests: 每个并发产生的请求数 测试环境:内存 8G ,8核cpu,2个redis和1个dq-server 部署在一个机器上,数据包64字节 qps:2400七、值得一提的性能优化点:
1.redis multi命令:将多个对redis的操作打包成一个减少网络开销
2.计数的操作异步处理,在异步逻辑里面用函数的static变量来保存,当写入redis成功后释放static变量,可以在redis出现异常时计数仍能保持一致,除非进程退出
3.内存泄露检测有必要: 所有的内存分配在底层都是调用了brk或者mmap,只要程序只有大量brk或者mmap的系统调用,内存泄露可能性非常高 ,检测命令: strace -c -p pid | grep "mmap| brk"
4.检测程序的系统调用情况:strace -c -p pid ,发现某个系统函数调用是其他的数倍,可能大概率程序存在问题
八、异常处理如果调用通知接口在超时时间内,没有收到回复认为通知失败,系统会重新把数据放入队列,重新通知,系统默认最大通知10次(可以在Dqconf.php文件中修改$notify_exp_nums)通知间隔为2n+1,比如第一次1分钟,通知失败,第二次3分钟后,直到收到回复,超出最大通知次数后系统自动丢弃,同时发邮件通知
ps:网络抖动在所难免,通知接口如果涉及到核心的服务,一定要保证幂等!!
九、线上情况线上部署了两个实例每个机房部一个,4个redis作存储,服务稳定运行数月,各项指标均符合预期
主要接入业务:
订单10分钟召回通知
接口超时或者失败补偿
项目地址: https://github.com/chenlinzho...
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/29595.html
摘要:背景当下视频直播如此红火,打造一个在线直播间涉及到哪些技术呢视频直播由主播的直播端以及观众的观看端组成。保持心跳断开重连快速搭建在线直播间按前文所述,搭建直播间有非常多的细节需要考虑,包括采集推流分发播放体验优化聊天室性能调优等。 背景 当下视频直播如此红火,打造一个在线直播间涉及到哪些技术呢? 视频直播由主播的直播端以及观众的观看端组成。一个简单的观看端最起码应包含播放器以及聊天室。...
摘要:本文将会讲解如何使用实现延时重试和失败消息队列,实现可靠的消息消费,消费失败后,自动延时将消息重新投递,当达到一定的重试次数后,将消息投递到失败消息队列,等待人工介入处理。 RabbitMQ是一款使用Erlang开发的开源消息队列。本文假设读者对RabbitMQ是什么已经有了基本的了解,如果你还不知道它是什么以及可以用来做什么,建议先从官网的 RabbitMQ Tutorials 入门...
摘要:本文将会讲解如何使用实现延时重试和失败消息队列,实现可靠的消息消费,消费失败后,自动延时将消息重新投递,当达到一定的重试次数后,将消息投递到失败消息队列,等待人工介入处理。 RabbitMQ是一款使用Erlang开发的开源消息队列。本文假设读者对RabbitMQ是什么已经有了基本的了解,如果你还不知道它是什么以及可以用来做什么,建议先从官网的 RabbitMQ Tutorials 入门...
阅读 3934·2021-11-18 13:22
阅读 1775·2021-11-17 09:33
阅读 2866·2021-09-26 09:46
阅读 1183·2021-08-21 14:11
阅读 2860·2019-08-30 15:53
阅读 2684·2019-08-30 15:52
阅读 1863·2019-08-30 10:52
阅读 1506·2019-08-29 15:30