资讯专栏INFORMATION COLUMN

爬虫学习笔记

zeyu / 2605人阅读

摘要:判断要爬取的页面是结构还是结构,就用检查里找到的节点属性名,去源代码里面搜索。

1.判断要爬取的页面是html结构还是json结构,就用检查里找到的节点属性名,去源代码里面搜索。查看网页源代码,如果是有清楚html标签的则为html结构,如:

而如果是这样的,则为json,如:

html结合直接使用网页标题作为url,使用html = etree.HTML(res.text)来整理页面结构;
而如果是json的话,则需要到「检查」-「NetWork」里面找到对应的加载页面,使用加载页面对应的链接作为url,然后使用json_data = json.loads(res.text)整理页面结构。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/108480.html

相关文章

  • SegmentFault 技术周刊 Vol.30 - 学习 Python 来做一些神奇好玩的事情吧

    摘要:学习笔记七数学形态学关注的是图像中的形状,它提供了一些方法用于检测形状和改变形状。学习笔记十一尺度不变特征变换,简称是图像局部特征提取的现代方法基于区域图像块的分析。本文的目的是简明扼要地说明的编码机制,并给出一些建议。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 开始之前,我们先来看这样一个提问: pyth...

    lifesimple 评论0 收藏0
  • 首次公开,整理12年积累的博客收藏夹,零距离展示《收藏夹吃灰》系列博客

    摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...

    Harriet666 评论0 收藏0
  • 学习笔记 | HTML 基本结构和基本标签 ——前端学习第一步!

    摘要:基本结构语言中,一个页面是由四个部分组成文档声明标签对标签对标签对图示文档声明这是一个文档声明,表示这是一个页面。标签标签表示页面内容的范围。 HTML HTML ...

    sPeng 评论0 收藏0
  • Python爬虫笔记1-爬虫背景了解

    摘要:学习爬虫的背景了解。但是搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容,如标注为的链接,或者是协议。不同领域不同背景的用户往往具有不同的检索目的和需求,搜索引擎无法提供针对具体某个用户的搜索结果。 学习python爬虫的背景了解。 大数据时代数据获取方式 如今,人类社会已经进入了大数据时代,数据已经成为必不可少的部分,可见数据的获取非常重要,而数据的获取的方式...

    oujie 评论0 收藏0
  • 一名爬虫工程师的运维入门之路:IPy学习笔记

    摘要:多学习总没错。。。简介模块包含类,可以方便的处理绝大部分个是为和的网络和地址。判断网段是否重叠 多学习总没错。。。 IPy简介: IPy模块包含IP类,可以方便的处理绝大部分个是为IPv6和IPv4的网络和地址。可以通过version方法就可以分出IPv4和IPv6 IPy方法: from IPy import IP ip = IP(192.168.1.20) print(i...

    flybywind 评论0 收藏0

发表评论

0条评论

zeyu

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<