资讯专栏INFORMATION COLUMN

用php蓝天采集器抓取今日头条ajax的文章内容

weizx / 3254人阅读

摘要:今日头条的数据都是加载显示的,按照正常的是抓取不到数据的,需要分析出加载出址,我们以为例来采集列表的文章用谷歌浏览器打开链接,右键点击审查在控制台切换至并点击,这样就可以过滤图片文件等等不必要的请求只看页面内容的请求由于页面是加载的,所以将

今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/searc... 为例来采集列表的文章

用谷歌浏览器打开链接,右键点击“审查”在控制台切换至network并点击XHR,这样就可以过滤图片、文件等等不必要的请求只看页面内容的请求

由于页面是ajax加载的,所以将页面拉至最底部,会自动加载出更多文章,这时候控制台抓取到的链接就是我们真正需要的列表页链接:

https://www.toutiao.com/searc...

在蓝天采集器中创建一个任务

创建完毕点击“采集器设置”,在“起始页网址”中填入上面抓取到的链接

接下来匹配内容页网址,头条的文章网址格式是https://www.toutiao.com/group...

点击“内容页网址”编写“匹配内容网址”规则:

(?http://toutiao.com/group/d+/)

这是个正则规则,意思就是把匹配的网址装进捕获组content1中,然后在下面填写[内容1] 即对应上面的content1 就可获取到内容页链接

可以点击测试查看是否成功抓取到了链接

抓取成功就可以开始获取内容了

点击“获取内容”在字段列表右边可以添加默认的字段,如标题、正文等都可以智能识别,如需精准还可以自行编辑字段,支持正则、xpath、json等匹配内容

我们需要抓取文章的标题和正文,由于是ajax显示的所以要写规则匹配出内容,分析篇源码:https://www.toutiao.com/a6358... ,找到文章位置

标题规则:articleInfos:s{stitle:s"[内容1]",

正文规则:contents:s"[内容1]",s*groupId

规则必须保证唯一性,不然会匹配到其他内容上去,将规则添加到字段中,获取方式选规则匹配:

规则编写完后点击保存,点击“测试”看看效果如何


规则无误,抓取正常,抓取到的数据还可以发布到cms系统、直接数据库入库、保存为excel文件等,点击底部导航条的“发布设置”即可,好了今日头条的采集到这里就结束了,大家不妨动手试试!

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/30744.html

相关文章

  • Python3网络爬虫实战---36、分析Ajax爬取今日头条街拍美图

    摘要:上一篇文章网络爬虫实战数据爬取下一篇文章网络爬虫实战动态渲染页面抓取本节我们以今日头条为例来尝试通过分析请求来抓取网页数据的方法,我们这次要抓取的目标是今日头条的街拍美图,抓取完成之后将每组图片分文件夹下载到本地保存下来。 上一篇文章:Python3网络爬虫实战---35、 Ajax数据爬取下一篇文章:Python3网络爬虫实战---37、动态渲染页面抓取:Selenium 本节我们...

    Leck1e 评论0 收藏0
  • php使QueryList轻松采集JavaScript动态渲染页面

    摘要:使用的方式来做采集,拥有丰富的插件。下面来演示使用插件抓取动态创建的页面内容。插件使用浏览器打开连接使用以采集今日头条手机版为例,今日头条手机版基于框架,内容是纯动态渲染出来的。 QueryList使用jQuery的方式来做采集,拥有丰富的插件。 下面来演示QueryList使用PhantomJS插件抓取JS动态创建的页面内容。 安装 使用Composer安装: 安装QueryList...

    Jason 评论0 收藏0
  • Laravel 中使 puppeteer 采集异步加载网页内容

    摘要:采集网页内容是一项很常见的需求,比较传统的静态页面,就能搞定。代码中使用了一个方法,是为了让内容加载完成后再进行截图,简单粗暴,可能不是最好的解决办法。总结被应用于测试采集等场景,是一个非常有力的工具。 showImg(https://segmentfault.com/img/remote/1460000014522692?w=640&h=360); 采集网页内容是一项很常见的需求,比...

    sixleaves 评论0 收藏0
  • 网站信息采集

    摘要:网站信息采集在编写爬虫之前可能需要先了解和搜集网站信息协议也称为爬虫协议机器人协议等的全称是网络爬虫排除标准,网站通过协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 网站信息采集 在编写爬虫之前可能需要先了解和搜集网站信息 robots.txt Robots协议(也称为爬虫协议、机器人协议等)的全称是网络爬虫排除标准(Robots Exclusion Protocol),网站通过...

    AZmake 评论0 收藏0
  • Python3网络爬虫实战---35、 Ajax数据爬取

    摘要:所以说,我们所看到的微博页面的真实数据并不是最原始的页面返回的,而是后来执行后再次向后台发送了请求,拿到数据后再进一步渲染出来的。结果提取仍然是拿微博为例,我们接下来用来模拟这些请求,把马云发过的微博爬取下来。 上一篇文章:Python3网络爬虫实战---34、数据存储:非关系型数据库存储:Redis下一篇文章:Python3网络爬虫实战---36、分析Ajax爬取今日头条街拍美图 ...

    Thanatos 评论0 收藏0

发表评论

0条评论

weizx

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<