scrapy的应用需要掌握的知识点

DangoSky 发布于2019-07-31 10:55 / 2547人阅读

摘要：最近一个项目需要做。确定要获取的字段在里面，定义好要获取的字段，例如我需要获取的网站标题和首页内容。这里是为了测试匹配数据的，需要掌握的知识点为获取办法和选择器获取办法。

最近一个项目需要做spider。就开始找资料，分析几个工具后，得到最成熟稳定的应该首推Scrapy。第一次使用Scrapy，写篇文章记录一下。

Scrapy的安装我就不复述了。网上一大把的资料。安装好环境后，就开始以下工作了。
大概操作步骤如下：

创建项目

创建spider

确定要获取的字段

确定正则匹配的字段

保存入库

创建项目

scrapy startproject projectName【项目名】
cd projectName

在命令行中进行以上操作。

创建spider

事先把要获取的网址准备好 eg: https://segmentfault.com

scrapy genspider spiderName "https://segmentfault.com"

生成成功后，会在spider目录下生成一个名叫：spiderName.py文件。获取规则就需要书写在这里面。

确定要获取的字段

在item.py里面，定义好要获取的字段，例如我需要获取sf.gg的网站标题和首页内容。就需要定义两个字段，title,content。想获取的信息越细越好

class articleItem(Scrapy.Item):
     # 获取网站标题
     title = Scrapy.Field()
     # 获取网站内容
     content = Scrpay.Field()

确定正则匹配字段内容

要注册获取数据的内容是本身在HTML里面的，还是ajax获取渲染的，如果是ajax渲染的数据，使用传统的获取不到数据。
这里是为了测试匹配数据的，需要掌握的知识点为xpath获取办法和css选择器获取办法。其中css类似jquery的选择器。

scrapy shell "https://segmentfault.com"

确定入库

保存形式有多种，json或数据库

最好的学习资料，永远都是代码+说明文档：
http://scrapy-chs.readthedocs...

云服务器 GPU云服务器大家需要掌握的深度学习需要掌握的前端需要掌握的技术大数据需要掌握的技术

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/44338.html

Python爬虫之Scrapy学习（基础篇）

摘要：下载器下载器负责获取页面数据并提供给引擎，而后提供给。下载器中间件下载器中间件是在引擎及下载器之间的特定钩子，处理传递给引擎的。一旦页面下载完毕，下载器生成一个该页面的，并将其通过下载中间件返回方向发送给引擎。作者：xiaoyu微信公众号：Python数据科学知乎：Python数据分析师在爬虫的路上，学习scrapy是一个必不可少的环节。也许有好多朋友此时此刻也正在接触并学习sc...

pkhope 2019-07-31 11:05 评论0 收藏0
python scrapy 代理中间件，爬虫必掌握的内容之一

摘要：使用中间件本次的测试站点依旧使用，通过访问可以获取当前请求的地址。中间件默认是开启的，可以查看其源码重点为方法。修改代理的方式非常简单，只需要在请求创建的时候，增加参数即可。接下来将可用的代理保存到文件中。同步修改文件中的代码。 ...

binta 2021-11-15 11:39 评论0 收藏0
非计算机专业小白自学爬虫全指南（附资源）

摘要：爬虫是我接触计算机编程的入门。练练练本文推荐的资源就是以项目练习带动爬虫学习，囊括了大部分爬虫工程师要求的知识点。拓展阅读一文了解爬虫与反爬虫最后，请注意，爬虫的工作机会相对较少。爬虫是我接触计算机编程的入门。哥当年写第一行代码的时候别提有多痛苦。本文旨在用一篇文章说透爬虫如何自学可以达到找工作的要求。爬虫的学习就是跟着实际项目去学，每个项目会涉及到不同的知识点，项目做多了，自然...

CarlBenjamin 2019-07-30 17:36 评论0 收藏0