小白爬虫scrapy第四篇

cnio 发布于2019-07-30 15:15 / 3134人阅读

摘要：没有做具体数据处理了直接把他们保存为数据了很长很长一段眼花下一篇是如何去保存在数据库中

在上篇中没有说到启动如何去启动,scrapy是使用cmd命令行去启动的
咱们用scrapy的cmdline去启动
命名point.py

# 导入cmdline 中的execute用来执行cmd命令
from scrapy.cmdline import execute
# 执行cmd命令参数为[ scrapy, 爬虫, 爬虫名称]
execute(["scrapy", "crawl", "AiquerSpider"])

这个文件放在项目根目录下
如图:

如果各位同学按照我的前面几篇的步骤写完的话可以用这个去测试一下(把部分代码注释去了),你会发现有好多神秘的蓝色链接,哇啊啊啊啊!!!!!我的右手在燃烧!!!!!!!

先在咱们去保存数据吧!我这几天写项目需求写到崩溃就不去做具体数据处理了,直接贴代码

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don"t forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
import json

class AiquerPipeline(object):
    def __init__(self):
        # 打开文件
        self.file = open("data.json", "w", encoding="utf-8")

    def process_item(self, item, spider):
        # 读取item中的数据
        line = json.dumps(dict(item), ensure_ascii=False) + "
"
        # 写入文件
        self.file.write(line)
        # 返回item
        return item

        # 该方法在spider被开启时被调用。
        def open_spider(self, spider):

            pass

        # 该方法在spider被关闭时被调用。
        def close_spider(self, spider):

            pass

在运行这个东西之前是要注册的,回到settings.py里面找到Configure item pipelines,将下面的注释去掉就行了,咱们没有具体需求所以不用改优先级别

# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    "AiQuer.pipelines.AiquerPipeline": 300,
}

AiQuer.pipelines.AiquerPipeline是为你要注册的类，右侧的’300’为该Pipeline的优先级，范围1～1000，越小越先执行。
没有做具体数据处理了,直接把他们保存为json数据了,很长很长一段眼花
下一篇是如何去保存在数据库中

云服务器 GPU云服务器第四篇 scrapy 爬虫爬虫scrapy scrapy爬虫

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/41140.html

scrapy入门

摘要：快速入门首先，初步要做的就是快速构建一个爬虫。然后把结果加入到一个队列中。既然是入门，我们肯定是先关心我们需要的。因为公司项目需求，需要做一个爬虫。所以我一个python小白就被拉去做了爬虫。花了两周时间，拼拼凑凑总算赶出来了。所以写个blog做个记录。快速入门首先，初步要做的就是快速构建一个爬虫。配置环境 Mac下安装 1) 直接从官网下载 python下载官网 2) 是通过...

CrazyCodes 2019-07-30 17:33 评论0 收藏0
小白爬虫scrapy第一篇

摘要：如果想先学习的话推荐看下基础教学菜鸟教程这个网站的教程里面的内容还是挺不错的非常适合小白学习好了废话不多说开始学习如何安装吧安装我上篇小白爬虫篇简介下面的链接安装包后在或者在中输入命令过程中可能会问你是否安装其他扩展包选按回车就好了安装完成如果想先学习python的话推荐看下Python基础教学|菜鸟教程这个网站的教程,里面的内容还是挺不错的非常适合小白学习好了废话不多说开始学习如何...

beanlam 2019-07-30 15:08 评论0 收藏0
小白爬虫scrapy第二篇

摘要：创建爬虫项目我创建的项目名称为用打开项目可以看到目录结构如下根目录有个是他的配置文件用来存放你的爬虫文件我就不做解释了存放集合中间件用来自定义插件在这里咱们用不到这玩意用来存储数据这个还用解释吗你可以在中看到这个他们的具体介绍就去看入门到奔创建爬虫项目 scrapy startproject (projectName) 我创建的项目名称为AIQuery scrapy startpro...

booster 2019-07-30 15:09 评论0 收藏0
小白爬虫scrapy第三篇

摘要：基于的树状结构，提供在数据结构树中找寻节点的能力。起初的提出的初衷是将其作为一个通用的介于与间的语法模型。在你的spiders目录下创建自己第一个爬虫项目,我我这儿命名为AiquerSpider.py然后编辑文件 # !/usr/bin/python # -*- coding: UTF-8 -*- import scrapy from scrapy.http import Reque...

laznrbfe 2019-07-30 15:10 评论0 收藏0