摘要:折腾原因之前都是远程连接服务器,然后在命令行运行,一旦关闭远程连接,爬虫就会停止,很不爽,毕竟能让一个爬虫在服务器一直跑才是每个小白的梦想,所以开始研究如何使程序在后台运行,刚开始看了,感觉不好用,又搜了搜,发现了这个进程管理程序。
折腾原因
之前都是远程连接服务器,然后在命令行运行scrapy crawl spider,一旦关闭远程连接,爬虫就会停止,很不爽,毕竟能让一个爬虫在服务器一直跑才是每个小白的梦想= =,所以开始研究如何使程序在后台运行,刚开始看了scrapyd,感觉不好用,又搜了搜,发现了supervisor这个python进程管理程序。
supervisor简介Supervisor是用Python开发的一套通用的进程管理程序,能将一个普通的命令行进程变为后台daemon,并监控进程状态,异常退出时能自动重启。它是通过fork/exec的方式把这些被管理的进程当作supervisor的子进程来启动,这样只要在supervisor的配置文件中,把要管理的进程的可执行文件的路径写进去即可。也实现当子进程挂掉的时候,父进程可以准确获取子进程挂掉的信息的,可以选择是否自己启动和报警。supervisor还提供了一个功能,可以为supervisord或者每个子进程,设置一个非root的user,这个user就可以管理它对应的进程。
安装supervisor我的系统是centos7所以运行以下命令
# yum install supervisor
等待安装完后,进入/ect目录,主要看如下两个文件。
supervisord.conf为主配置文件,可以打开看一下,不用更改,supervisord.d为子进程的配置文件夹,存放在这里的配置文件在程序启动后会自动读取该文件夹下的文件,我们进入这个文件夹,创建一个子进程文件,名为awesome.ini,内容如下:
[program:awesome] command = shell.py directory = /python/scrapy user = root startsecs = 3 redirect_stderr = true stdout_logfile_maxbytes = 50MB stdout_logfile_backups = 10 stdout_logfile = /log/app.log
说明:
command:为要后台运行的shell命令
directory:指定command命令要执行的文件夹
user:执行命令的用户
stdout_logfile:程序运行的日志,报错可以在这里看。
创建好子进程文件后,运行如下命令解锁程序:
# sudo unlink /run/supervisor.sock
再运行以下命令运行程序启动爬虫:
# supervisord
运行成功会有如下提示:
/usr/lib/python2.7/site-packages/supervisor/options.py:296: UserWarning: Supervisord is running as root and it is searching for its configuration file in default locations (including it s current working directory); you probably want to specify a "-c" argument specifying an absolute path to a configuration file for improved security. "Supervisord is running as root and it is searching "进程管理的相关命令
1) 查看所有子进程的状态:
# supervisorctl status awesome RUNNING pid 2395, uptime 0:08:41
2)关闭、开启指定的子进程:
# supervisorctl stop zhoujy awesome: stopped
3)关闭、开启所有的子进程:
# supervisorctl stop all awesome: stopped # supervisorctl start all awesome: started总结
终于可以愉快的爬虫了呢!OvO
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/42760.html
摘要:阿里云安装脚本安装脚本两个脚本可以任选其一,速度都非常不错。推荐的加速器有和阿里云。阿里云不同平台的镜像加速方法配置可以参考的官方文档。以上便是的安装方式说明。上一篇文章网络爬虫实战爬虫框架的安装下一篇文章网络爬虫实战部署相关库 上一篇文章:Python3网络爬虫实战---11、爬虫框架的安装:ScrapySplash、ScrapyRedis下一篇文章:Python3网络爬虫实战---...
摘要:环境准备任务时间前置环境部署在开始部署前,我们需要做一些前置准备。此时输入并回车,应该可以看到类似下面这样的输出,说明一切正常。完成后,可以通过快捷键或命令行键入来退出,进入下一步。 欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由腾讯云实验室发表于云+社区专栏 腾讯云提供了开发者实验室教你搭建 PySpider 爬虫服务,教程内容如下,用户可以点击开发者实验室快速...
摘要:安装配置文件内容如下守护进程,用这个的原因实在是因为太脆弱了,一看不住就挂了安装配置导入默认配置链接管理设置管理进程启动创建文件内容如下启动查看如一切正常常用命令查看状态重新载入重启任务可以更新配置检查日志爬虫部署部署项目目录 scrapyd 安装: sudo pip install scrapyd 配置: #文件~/.scrapyd.conf #内容如下: [scrapyd] egg...
摘要:安装配置文件内容如下守护进程,用这个的原因实在是因为太脆弱了,一看不住就挂了安装配置导入默认配置链接管理设置管理进程启动创建文件内容如下启动查看如一切正常常用命令查看状态重新载入重启任务可以更新配置检查日志爬虫部署部署项目目录 scrapyd 安装: sudo pip install scrapyd 配置: #文件~/.scrapyd.conf #内容如下: [scrapyd] egg...
阅读 2858·2021-11-15 11:39
阅读 1491·2021-08-19 10:56
阅读 1070·2019-08-30 14:12
阅读 3664·2019-08-29 17:29
阅读 657·2019-08-29 16:21
阅读 3400·2019-08-26 12:22
阅读 1495·2019-08-23 16:30
阅读 990·2019-08-23 15:25