摘要:进行抓取任务时很苦恼的一点在于为了调试某个第三四层以上的跳转链接需要等待将前面的链接都跑一遍才能确定某个页面的函数是否正确的命令行参数就是为了解决这一问题官网的描述意思就是网址可选参数官网给出的例子我的实践之路开始运行时结果总是没有打印出任
进行抓取任务时很苦恼的一点在于为了调试某个第三,四层以上的跳转链接需要等待将前面的链接都跑一遍,才能确定某个页面的parse函数是否正确,scrapy的命令行参数 parse就是为了解决这一问题.
官网的描述Syntax: scrapy parse
[options]
意思就是 scrpy parse 网址 可选参数
官网给出的例子 $ scrapy shell http://www.example.com/some/page.html我的实践之路
开始运行时结果总是没有打印出任何log来,于是将原本0.25的scrapy升级到1.0
这时再输入
scrapy parse http://www.douban.com -c group_parse
报了这样的错误
ERROR: Unable to find spider for: http://www.douban.com
还有可能是这样的
Traceback (most recent call last): File "/usr/local/bin/scrapy", line 11, insys.exit(execute()) File "/Library/Python/2.7/site-packages/scrapy/cmdline.py", line 143, in execute _run_print_help(parser, _run_command, cmd, args, opts) File "/Library/Python/2.7/site-packages/scrapy/cmdline.py", line 89, in _run_print_help func(*a, **kw) File "/Library/Python/2.7/site-packages/scrapy/cmdline.py", line 150, in _run_command cmd.run(args, opts) File "/Library/Python/2.7/site-packages/scrapy/commands/parse.py", line 220, in run self.set_spidercls(url, opts) File "/Library/Python/2.7/site-packages/scrapy/commands/parse.py", line 147, in set_spidercls self.spidercls.start_requests = _start_requests AttributeError: "NoneType" object has no attribute "start_requests"
好吧,自动找不到我们就显示指定下爬虫的名字
就是在继承自spider类里定义的那个name里的值
class douban(Spider): name = "douban_spider"
ok 问题解决
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/37678.html
摘要:爬虫大战京东商城引言上一篇已经讲过怎样获取链接,怎样获得参数了,详情请看爬取京东商城普通篇代码详解首先应该构造请求,这里使用这个方法默认调用的是构造请求,如果要改变默认的请求,那么必须重载该方法,这个方法的返回值必须是一个可迭代的对象,一般 SCrapy爬虫大战京东商城 引言 上一篇已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇 代码详解 首先应该构造请求...
摘要:用例运行爬虫命令基本语法是否需要项目存在当然是不需要咯貌似这个命令是不依托一个项目而直接运行一个爬虫的命令。用例我终于写完了,喜欢的就收藏推荐一下吧,这样我就会更有动力写新的教程了,哇哈哈 0. 基本环境说明 本文截图及运行环境均在Win8上实现(是的,我放假回家了,家里的机器是win8的没有办法),但基本步骤与win 7环境基本相同。(应该把~)ps:我后来换了台win7的电脑,所...
摘要:内容如下是我们准备爬的初始页这个是解析函数,如果不特别指明的话,抓回来的页面会由这个函数进行解析。爬取多个页面的原理相同,注意解析翻页的地址设定终止条件指定好对应的页面解析函数即可。后面的数字表示的是优先级。指明每两个请求之间的间隔。 序 本文主要内容:以最短的时间写一个最简单的爬虫,可以抓取论坛的帖子标题和帖子内容。 本文受众:没写过爬虫的萌新。 入门 0.准备工作 需要准备的东西:...
阅读 1914·2023-04-26 01:56
阅读 3110·2021-11-18 10:02
阅读 3049·2021-09-09 11:35
阅读 1283·2021-09-03 10:28
阅读 3407·2019-08-29 18:36
阅读 2846·2019-08-29 17:14
阅读 832·2019-08-29 16:10
阅读 1616·2019-08-26 13:45