资讯专栏INFORMATION COLUMN

scrapy的应用需要掌握的知识点

DangoSky / 2472人阅读

摘要:最近一个项目需要做。确定要获取的字段在里面,定义好要获取的字段,例如我需要获取的网站标题和首页内容。这里是为了测试匹配数据的,需要掌握的知识点为获取办法和选择器获取办法。

最近一个项目需要做spider。就开始找资料,分析几个工具后,得到最成熟稳定的应该首推Scrapy。 第一次使用Scrapy,写篇文章记录一下。

Scrapy的安装我就不复述了。网上一大把的资料。安装好环境后,就开始以下工作了。
大概操作步骤如下:

创建项目

创建spider

确定要获取的字段

确定正则匹配的字段

保存入库

创建项目
scrapy startproject projectName【项目名】
cd projectName

在命令行中进行以上操作。

创建spider

事先把要获取的网址准备好 eg: https://segmentfault.com

scrapy genspider spiderName "https://segmentfault.com"

生成成功后,会在spider目录下生成一个名叫:spiderName.py文件。获取规则就需要书写在这里面。

确定要获取的字段

在item.py里面,定义好要获取的字段,例如我需要获取sf.gg的网站标题和首页内容。就需要定义两个字段,title,content。想获取的信息越细越好

class articleItem(Scrapy.Item):
     # 获取网站标题
     title = Scrapy.Field()
     # 获取网站内容
     content = Scrpay.Field()
确定正则匹配字段内容

要注册获取数据的内容是本身在HTML里面的,还是ajax获取渲染的,如果是ajax渲染的数据,使用传统的获取不到数据。
这里是为了测试匹配数据的,需要掌握的知识点为xpath获取办法和css选择器获取办法。其中css类似jquery的选择器。

scrapy shell "https://segmentfault.com"
确定入库

保存形式有多种,json或数据库

最好的学习资料,永远都是代码+说明文档:
http://scrapy-chs.readthedocs...

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/44338.html

相关文章

  • Python爬虫之Scrapy学习(基础篇)

    摘要:下载器下载器负责获取页面数据并提供给引擎,而后提供给。下载器中间件下载器中间件是在引擎及下载器之间的特定钩子,处理传递给引擎的。一旦页面下载完毕,下载器生成一个该页面的,并将其通过下载中间件返回方向发送给引擎。 作者:xiaoyu微信公众号:Python数据科学知乎:Python数据分析师 在爬虫的路上,学习scrapy是一个必不可少的环节。也许有好多朋友此时此刻也正在接触并学习sc...

    pkhope 评论0 收藏0
  • python scrapy 代理中间件,爬虫必掌握内容之一

    摘要:使用中间件本次的测试站点依旧使用,通过访问可以获取当前请求的地址。中间件默认是开启的,可以查看其源码重点为方法。修改代理的方式非常简单,只需要在请求创建的时候,增加参数即可。接下来将可用的代理保存到文件中。同步修改文件中的代码。 ...

    binta 评论0 收藏0
  • 非计算机专业小白自学爬虫全指南(附资源)

    摘要:爬虫是我接触计算机编程的入门。练练练本文推荐的资源就是以项目练习带动爬虫学习,囊括了大部分爬虫工程师要求的知识点。拓展阅读一文了解爬虫与反爬虫最后,请注意,爬虫的工作机会相对较少。 爬虫是我接触计算机编程的入门。哥当年写第一行代码的时候别提有多痛苦。 本文旨在用一篇文章说透爬虫如何自学可以达到找工作的要求。 爬虫的学习就是跟着实际项目去学,每个项目会涉及到不同的知识点,项目做多了,自然...

    CarlBenjamin 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<