10、web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令

OnlyMyRailgun 发布于2019-07-31 10:37 / 1551人阅读

摘要：负责处理被提取出来的。典型的处理有清理验证及持久化例如存取到数据库知识库项目的设置文件实现自定义爬虫的目录中间件是在引擎及之间的特定钩子，处理的输入和输出及。

【百度云搜索:http://www.bdyss.com】 【搜网盘:http://www.swpan.cn】

Scrapy框架安装

1、首先，终端执行命令升级pip: python -m pip install --upgrade pip
2、安装，wheel(建议网络安装) pip install wheel
3、安装，lxml(建议下载安装)
4、安装，Twisted(建议下载安装)
5、安装，Scrapy(建议网络安装) pip install Scrapy

测试Scrapy是否安装成功

Scrapy框架指令

scrapy -h 查看帮助信息

Available commands:
　　bench　　　　　　 Run quick benchmark test (scrapy bench  硬件测试指令，可以测试当前服务器每分钟最多能爬多少个页面)
　　fetch　　　　　　 Fetch a URL using the Scrapy downloader (scrapy fetch http://www.iqiyi.com/  获取一个网页html源码)
　　genspider 　　　   Generate new spider using pre-defined templates ()
　　runspider　　　　 Run a self-contained spider (without creating a project) ()
　　settings　　　　   Get settings values ()
　　shell 　　　　　　 Interactive scraping console ()
　　startproject 　　　Create new project (cd 进入要创建项目的目录，scrapy startproject 项目名称，创建scrapy项目)
　　version 　　　　 Print Scrapy version ()
　　view 　　　　　 Open URL in browser, as seen by Scrapy ()

创建项目以及项目说明

scrapy startproject adc 创建项目

项目说明

目录结构如下：

├── firstCrawler

│ ├── __init__.py

│ ├── items.py

│ ├── middlewares.py

│ ├── pipelines.py

│ ├── settings.py

│ └── spiders

│ └── __init__.py

└── scrapy.cfg

scrapy.cfg: 项目的配置文件

tems.py: 项目中的item文件，用来定义解析对象对应的属性或字段。

pipelines.py: 负责处理被spider提取出来的item。典型的处理有清理、验证及持久化(例如存取到数据库） [](http://lib.csdn.net/base/mysql "MySQL知识库")

settings.py: 项目的设置文件.

spiders：实现自定义爬虫的目录

middlewares.py：Spider中间件是在引擎及Spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出(items及requests)。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

项目指令

项目指令是需要cd进入项目目录执行的指令

scrapy -h 项目指令帮助

Available commands:
　　bench　　　　 Run quick benchmark test
　　check　　　　 Check spider contracts
　　crawl　　　　   Run a spider
　　edit 　　　　    Edit spider
　　fetch　　　　 Fetch a URL using the Scrapy downloader
　　genspider　　 Generate new spider using pre-defined templates
　　list 　　　　　 List available spiders
　　parse　　　　 Parse URL (using its spider) and print the results
　　runspider 　　 Run a self-contained spider (without creating a project)
　　settings 　　 Get settings values
　　shell　　　　 Interactive scraping console
　　startproject 　 Create new project
　　version　　 Print Scrapy version (scrapy version  查看scrapy版本信息)
　　view　　　　 Open URL in browser, as seen by Scrapy (scrapy view http://www.zhimaruanjian.com/  下载一个网页并打开)

创建爬虫文件

创建爬虫文件是根据scrapy的母版来创建爬虫文件的

scrapy genspider -l 查看scrapy创建爬虫文件可用的母版

Available templates:母版说明
　　basic　　　　创建基础爬虫文件

　　crawl　　　　创建自动爬虫文件
　　csvfeed　　创建爬取csv数据爬虫文件

　　xmlfeed　　　创建爬取xml数据爬虫文件

创建一个基础母版爬虫，其他同理

scrapy genspider -t 母版名称爬虫文件名称要爬取的域名创建一个基础母版爬虫，其他同理
如：scrapy genspider -t basic pach baidu.com

scrapy check 爬虫文件名称测试一个爬虫文件是否合规
如：scrapy check pach

scrapy crawl 爬虫名称执行爬虫文件，显示日志【重点】

scrapy crawl 爬虫名称 --nolog 执行爬虫文件，不显示日志【重点】
【转载自：http://www.lqkweb.com】

GPU云服务器云服务器爬虫框架scrapy scrapy框架编写爬虫 python爬虫框架scrapy scrapy 爬虫

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/44133.html

scrapy-redis分布式爬虫框架详解

摘要：分布式爬虫框架详解随着互联网技术的发展与应用的普及，网络作为信息的载体，已经成为社会大众参与社会生活的一种重要信息渠道。下载器中间件位于引擎和下载器之间的框架，主要是处理引擎与下载器之间的请求及响应。 scrapy-redis分布式爬虫框架详解随着互联网技术的发展与应用的普及，网络作为信息的载体，已经成为社会大众参与社会生活的一种重要信息渠道。由于互联网是开放的，每个人都可以在网络上...

myeveryheart 2019-07-30 16:09 评论0 收藏0
12、web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Coo

摘要：百度云搜索，搜各种资料搜网盘，搜各种资料模拟浏览器登录方法，可以返回一个请求给爬虫的起始网站，这个返回的请求相当于，返回的请求会替代里的请求请求，可以设置，回调函数表单提交，第一个必须参数，上一次响应的对象，其他参数，表单内容等可以将一个新【百度云搜索，搜各种资料:http://www.bdyss.cn】【搜网盘，搜各种资料:http://www.swpan.cn】模拟浏览器登录...

jay_tian 2019-07-31 11:24 评论0 收藏0
python的scrapy框架爬取懒人听书网站

摘要：爬虫项目的管道文件，用来对中的数据进行进一步的加工处理。根据传入的正则表达式对数据进行提取，返回字符串列表。的作用函数可创建一个整数列表，一般用在循环中。项目地址：https://github.com/gejinnvshe...微信公众号：天字一等爬取懒人听书平台书籍的书名、作者名、分类，后续还会增加爬取音频爬虫用到的框架：scrapy Anaconda是专注于数据分析的Pyth...

CoffeX 2019-07-31 10:21 评论0 收藏0
11、web爬虫讲解2—Scrapy框架爬虫—Scrapy使用

摘要：百度云搜索，搜各种资料搜网盘，搜各种资料表达式表示向下查找层指定标签，如表示查找所有标签表示向下查找一层指定的标签表示查找指定属性的值可以连缀如属性名称属性值表示查找指定属性等于指定值的标签可以连缀，如查找名称等于指定名称的标签获取标签文本【百度云搜索，搜各种资料:http://www.lqkweb.com】【搜网盘，搜各种资料:http://www.swpan.cn】 xpath...

trilever 2019-07-31 11:23 评论0 收藏0