资讯专栏INFORMATION COLUMN

scrapy下调试单个函数的方法

yintaolaowanzi / 3504人阅读

摘要:进行抓取任务时很苦恼的一点在于为了调试某个第三四层以上的跳转链接需要等待将前面的链接都跑一遍才能确定某个页面的函数是否正确的命令行参数就是为了解决这一问题官网的描述意思就是网址可选参数官网给出的例子我的实践之路开始运行时结果总是没有打印出任

进行抓取任务时很苦恼的一点在于为了调试某个第三,四层以上的跳转链接需要等待将前面的链接都跑一遍,才能确定某个页面的parse函数是否正确,scrapy的命令行参数 parse就是为了解决这一问题.

官网的描述

Syntax: scrapy parse [options]
意思就是 scrpy parse 网址 可选参数

官网给出的例子 $ scrapy shell       http://www.example.com/some/page.html
我的实践之路

开始运行时结果总是没有打印出任何log来,于是将原本0.25的scrapy升级到1.0
这时再输入

scrapy parse http://www.douban.com -c group_parse

报了这样的错误

ERROR: Unable to find spider for: http://www.douban.com

还有可能是这样的

Traceback (most recent call last):
  File "/usr/local/bin/scrapy", line 11, in 
    sys.exit(execute())
  File "/Library/Python/2.7/site-packages/scrapy/cmdline.py", line 143, in execute
    _run_print_help(parser, _run_command, cmd, args, opts)
  File "/Library/Python/2.7/site-packages/scrapy/cmdline.py", line 89, in _run_print_help
    func(*a, **kw)
  File "/Library/Python/2.7/site-packages/scrapy/cmdline.py", line 150, in _run_command
    cmd.run(args, opts)
  File "/Library/Python/2.7/site-packages/scrapy/commands/parse.py", line 220, in run
    self.set_spidercls(url, opts)
  File "/Library/Python/2.7/site-packages/scrapy/commands/parse.py", line 147, in set_spidercls
    self.spidercls.start_requests = _start_requests
AttributeError: "NoneType" object has no attribute "start_requests"

好吧,自动找不到我们就显示指定下爬虫的名字
就是在继承自spider类里定义的那个name里的值

class douban(Spider):
    name = "douban_spider"

ok 问题解决

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/37678.html

相关文章

  • 爬虫入门

    摘要:通用网络爬虫通用网络爬虫又称全网爬虫,爬取对象从一些种子扩充到整个。为提高工作效率,通用网络爬虫会采取一定的爬取策略。介绍是一个国人编写的强大的网络爬虫系统并带有强大的。 爬虫 简单的说网络爬虫(Web crawler)也叫做网络铲(Web scraper)、网络蜘蛛(Web spider),其行为一般是先爬到对应的网页上,再把需要的信息铲下来。 分类 网络爬虫按照系统结构和实现技术,...

    defcon 评论0 收藏0
  • 爬虫入门

    摘要:通用网络爬虫通用网络爬虫又称全网爬虫,爬取对象从一些种子扩充到整个。为提高工作效率,通用网络爬虫会采取一定的爬取策略。介绍是一个国人编写的强大的网络爬虫系统并带有强大的。 爬虫 简单的说网络爬虫(Web crawler)也叫做网络铲(Web scraper)、网络蜘蛛(Web spider),其行为一般是先爬到对应的网页上,再把需要的信息铲下来。 分类 网络爬虫按照系统结构和实现技术,...

    Invoker 评论0 收藏0
  • SCrapy爬虫大战京东商城

    摘要:爬虫大战京东商城引言上一篇已经讲过怎样获取链接,怎样获得参数了,详情请看爬取京东商城普通篇代码详解首先应该构造请求,这里使用这个方法默认调用的是构造请求,如果要改变默认的请求,那么必须重载该方法,这个方法的返回值必须是一个可迭代的对象,一般 SCrapy爬虫大战京东商城 引言 上一篇已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇 代码详解 首先应该构造请求...

    noONE 评论0 收藏0
  • scrapy入门教程3:scrapyshell命令

    摘要:用例运行爬虫命令基本语法是否需要项目存在当然是不需要咯貌似这个命令是不依托一个项目而直接运行一个爬虫的命令。用例我终于写完了,喜欢的就收藏推荐一下吧,这样我就会更有动力写新的教程了,哇哈哈 0. 基本环境说明 本文截图及运行环境均在Win8上实现(是的,我放假回家了,家里的机器是win8的没有办法),但基本步骤与win 7环境基本相同。(应该把~)ps:我后来换了台win7的电脑,所...

    zhongmeizhi 评论0 收藏0
  • 从零开始Python爬虫速成指南

    摘要:内容如下是我们准备爬的初始页这个是解析函数,如果不特别指明的话,抓回来的页面会由这个函数进行解析。爬取多个页面的原理相同,注意解析翻页的地址设定终止条件指定好对应的页面解析函数即可。后面的数字表示的是优先级。指明每两个请求之间的间隔。 序 本文主要内容:以最短的时间写一个最简单的爬虫,可以抓取论坛的帖子标题和帖子内容。 本文受众:没写过爬虫的萌新。 入门 0.准备工作 需要准备的东西:...

    gotham 评论0 收藏0

发表评论

0条评论

yintaolaowanzi

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<