Python scrapy框架用21行代码写出一个爬虫

CODING 发布于2019-07-25 11:47 / 2828人阅读

摘要：开发环境目前最新开发框架目前最新目标爬取线报网站并把内容保存到里页面分析根据上图我们可以发现内容都在类为这个里下面放出的代码月日月日淘金币淘里程领取京东签到月日淘金币淘里程领取京东签到已结束发布日期分类虚拟币浏览淘金币一

开发环境:Pycharm 2017.1(目前最新)
开发框架: Scrapy 1.3.3(目前最新)

目标

爬取线报网站,并把内容保存到items.json里

页面分析

根据上图我们可以发现内容都在类为post这个div里
下面放出post的代码



04月07日

4月7日 淘金币淘里程领取京东签到已结束
发布日期: 2017-04-07 | 分类: 虚拟币   |  浏览:125177
淘金币一键领取 http://021.tw/t/ https://www.chaidu.com/App/Web/Taobao-Coin/ 【电脑端30金币】 https://taojinbi.taobao.com/inde ... auto_take=true 【手机端30金币】 http://h5.m.taobao...

实现方法

1.定义items

class DemoItem(scrapy.Item):
    id = scrapy.Field()
    title = scrapy.Field()
    href = scrapy.Field()
    content = scrapy.Field()

2.新建一个爬虫名为test

# -*- coding: utf-8 -*-
import scrapy
from demo.items import DemoItem
from scrapy.http import Request

class TestSpider(scrapy.Spider):
    #定义爬虫的名字和需要爬取的网址
    name = "test"
    allowed_domains = ["www.abckg.com"]
    start_urls = ["http://www.abckg.com/"]

    def parse(self, response):
        for resp in response.css(".post"):
            #实例化item
            item = DemoItem()
            #把获取到的内容保存到item内
            item["href"] = resp.css("h2 a::attr(href)").extract()
            item["title"] = resp.css("h2 a::text").extract()
            item["content"] = resp.css(".intro p::text").extract()
            yield item
            
        #下面是多页面的爬取方法
        urls = response.css(".pageinfo a::attr(href)").extract()
        for url in urls:
            yield Request(url, callback=self.parse)
        categorys = response.css(".menu li a::attr(href)").extract()
        for ct in categorys:
            yield Request(ct, callback=self.parse)

3.修改settings.py,添加以下代码

FEED_EXPORT_ENCODING = "utf-8"

运行

打开cmd输入

scrapy crawl test -o items.json

已知bug

如果多次运行该爬虫,不会覆盖原有的内容,而是追加数据(好像是scrapy的bug)

可拓展内容

1.定时运行爬虫,当检查到网站更新时获取新数据并发邮件通知
2.检测数据是否重复

GPU云服务器云服务器 python爬虫框架scrapy 爬虫框架scrapy scrapy框架编写爬虫用jsp写出一个日历

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/38611.html

首次公开，整理12年积累的博客收藏夹，零距离展示《收藏夹吃灰》系列博客

摘要：时间永远都过得那么快，一晃从年注册，到现在已经过去了年那些被我藏在收藏夹吃灰的文章，已经太多了，是时候把他们整理一下了。那是因为收藏夹太乱，橡皮擦给设置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 评论0 收藏0
Python爬虫框架Scrapy实战 - 抓取BOSS直聘招聘信息

原文地址： http://www.jtahstu.com/blog/s... Python爬虫框架Scrapy实战 - 抓取BOSS直聘招聘信息零、开发环境 MacBook Pro (13-inch, 2016, Two Thunderbolt 3 ports) CPU : 2 GHz Intel Core i5 RAM : 8 GB 1867 MHz LPDDR3 Python 版本: v3...

caohaoyu 2019-07-30 15:06 评论0 收藏0
Python爬虫框架Scrapy实战 - 抓取BOSS直聘招聘信息

原文地址： http://www.jtahstu.com/blog/s... Python爬虫框架Scrapy实战 - 抓取BOSS直聘招聘信息零、开发环境 MacBook Pro (13-inch, 2016, Two Thunderbolt 3 ports) CPU : 2 GHz Intel Core i5 RAM : 8 GB 1867 MHz LPDDR3 Python 版本: v3...

zero 2019-06-28 14:29 评论0 收藏0
Python3网络爬虫实战---10、爬虫框架的安装：PySpider、Scrapy

摘要：所以如果对爬虫有一定基础，上手框架是一种好的选择。缺少包，使用安装即可缺少包，使用安装即可上一篇文章网络爬虫实战爬取相关库的安装的安装下一篇文章网络爬虫实战爬虫框架的安装上一篇文章：Python3网络爬虫实战---9、APP爬取相关库的安装：Appium的安装下一篇文章：Python3网络爬虫实战---11、爬虫框架的安装：ScrapySplash、ScrapyRedis 我们直接...

张宪坤 2019-07-31 10:34 评论0 收藏0
Python 爬虫面试题 170 道：2019 版

摘要：下面代码会存在什么问题，如何改进一行代码输出之间的所有偶数。简述进程之间如何通信多路复用的作用模型的区别什么是并发和并行解释什么是异步非阻塞的作用面试题说说你知道的命令如何查看某次提交修改的内容答案扫码下面的二维码订阅即可获取。引言最近在刷面试题,所以需要看大量的 Python 相关的面试题，从大量的题目中总结了很多的知识，同时也对一些题目进行拓展了，但是在看了网上的大部分面试题不...

trigkit4 2019-07-31 10:33 评论0 收藏0