摘要:最近一个项目需要做。确定要获取的字段在里面,定义好要获取的字段,例如我需要获取的网站标题和首页内容。这里是为了测试匹配数据的,需要掌握的知识点为获取办法和选择器获取办法。
最近一个项目需要做spider。就开始找资料,分析几个工具后,得到最成熟稳定的应该首推Scrapy。 第一次使用Scrapy,写篇文章记录一下。
Scrapy的安装我就不复述了。网上一大把的资料。安装好环境后,就开始以下工作了。
大概操作步骤如下:
创建项目
创建spider
确定要获取的字段
确定正则匹配的字段
保存入库
创建项目scrapy startproject projectName【项目名】 cd projectName
在命令行中进行以上操作。
创建spider事先把要获取的网址准备好 eg: https://segmentfault.com
scrapy genspider spiderName "https://segmentfault.com"
生成成功后,会在spider目录下生成一个名叫:spiderName.py文件。获取规则就需要书写在这里面。
确定要获取的字段在item.py里面,定义好要获取的字段,例如我需要获取sf.gg的网站标题和首页内容。就需要定义两个字段,title,content。想获取的信息越细越好
class articleItem(Scrapy.Item): # 获取网站标题 title = Scrapy.Field() # 获取网站内容 content = Scrpay.Field()确定正则匹配字段内容
要注册获取数据的内容是本身在HTML里面的,还是ajax获取渲染的,如果是ajax渲染的数据,使用传统的获取不到数据。
这里是为了测试匹配数据的,需要掌握的知识点为xpath获取办法和css选择器获取办法。其中css类似jquery的选择器。
scrapy shell "https://segmentfault.com"确定入库
保存形式有多种,json或数据库
最好的学习资料,永远都是代码+说明文档:
http://scrapy-chs.readthedocs...
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/44338.html
摘要:下载器下载器负责获取页面数据并提供给引擎,而后提供给。下载器中间件下载器中间件是在引擎及下载器之间的特定钩子,处理传递给引擎的。一旦页面下载完毕,下载器生成一个该页面的,并将其通过下载中间件返回方向发送给引擎。 作者:xiaoyu微信公众号:Python数据科学知乎:Python数据分析师 在爬虫的路上,学习scrapy是一个必不可少的环节。也许有好多朋友此时此刻也正在接触并学习sc...
摘要:使用中间件本次的测试站点依旧使用,通过访问可以获取当前请求的地址。中间件默认是开启的,可以查看其源码重点为方法。修改代理的方式非常简单,只需要在请求创建的时候,增加参数即可。接下来将可用的代理保存到文件中。同步修改文件中的代码。 ...
摘要:爬虫是我接触计算机编程的入门。练练练本文推荐的资源就是以项目练习带动爬虫学习,囊括了大部分爬虫工程师要求的知识点。拓展阅读一文了解爬虫与反爬虫最后,请注意,爬虫的工作机会相对较少。 爬虫是我接触计算机编程的入门。哥当年写第一行代码的时候别提有多痛苦。 本文旨在用一篇文章说透爬虫如何自学可以达到找工作的要求。 爬虫的学习就是跟着实际项目去学,每个项目会涉及到不同的知识点,项目做多了,自然...
阅读 1002·2021-09-30 09:58
阅读 2828·2021-09-09 11:55
阅读 2000·2021-09-01 11:41
阅读 990·2019-08-30 15:55
阅读 3349·2019-08-30 12:50
阅读 3494·2019-08-29 18:37
阅读 3294·2019-08-29 16:37
阅读 2010·2019-08-29 13:00