资讯专栏INFORMATION COLUMN

html5语义标签以及使用nodejs request库抓取网站数据

simon_chen / 1722人阅读

摘要:语义标签定义文档中的一个章节。定义可以独立于内容其余部分的完整独立内容块。定义和页面内容关联度较低的内容如果被删除,剩下的内容仍然很合理。它经常包含页面标题和导航性的目录。定义包含联系信息的一个章节。

html5语义标签
Element Description
定义文档中的一个章节。
定义只包含导航链接的章节。
定义可以独立于内容其余部分的完整独立内容块。
定义和页面内容关联度较低的内容——如果被删除,剩下的内容仍然很合理。
定义页面或章节的头部。它经常包含 logo、页面标题和导航性的目录。
定义页面或章节的尾部。它经常包含版权信息、法律信息链接和反馈建议用的地址。
定义包含联系信息的一个章节。
定义文档中主要或重要的内容。

如图:

使用nodejs request库抓取网站数据 分析数据 查看请求 如图:

打开chrome开发者工具crtl+shift+i,打开network面板,选择XHR

找到需要数据的XHR请求

分析请求

箭头所示地方 发现 该数据是使用post请求并且传值形式如 "form: trendType=01",请求的url也一目了然

伪造请求

那么接下来的事情就比较简单了,我们只需要根据找到的这个请求格式设置headers,再请求这个api的url即可

"accept": "application/json, text/javascript, */*; q=0.01",
  "origin": "http://www.liangdawang.com",
  "referer": "http://www.liangdawang.com/",
  "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"
下载数据

查看request文档再使用pipe方法将获取的数据下载到本地保存起来

request(options, callback).pipe(fs.createWriteStream(options.form.trendType + `.json`));
代码链接 源码 https://gitee.com/imgwho/lian... 预览 https://imgwho.gitee.io/liangyou

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/94697.html

相关文章

  • 单页应用SEO浅谈(转载)

    摘要:中的哈希号单页应用只有一个页面,视图的变化通常是通过路由来驱动,首先,我们先来谈一谈单页应用的中的号,很多采用单元结构网站的都出现了这个符号。 单页应用SEO浅谈 单页应用(Single Page Application)越来越受web开发者欢迎,单页应用的体验可以模拟原生应用,一次开发,多端兼容。单页应用并不是一个全新发明的技术,而是随着互联网的发展,满足用户体验的一种综合技术。 S...

    xuhong 评论0 收藏0
  • 前端工程师的知识体系

    摘要:目前只有和有这个概率。是快速开发应用程序的前端工具包。调试工具前端的调试工具很多,比如,核心的的。前端流程部署,和现在几乎是前端最流行的自动化的项目构建工具正则表达式浏览器插件开发浏览器原理沟通能力优秀 下图是前端工程师图解:showImg(http://upload-images.jianshu.io/upload_images/1807893-de7c7404345922b6.jp...

    itvincent 评论0 收藏0
  • 前端工程师的知识体系

    摘要:目前只有和有这个概率。是快速开发应用程序的前端工具包。调试工具前端的调试工具很多,比如,核心的的。前端流程部署,和现在几乎是前端最流行的自动化的项目构建工具正则表达式浏览器插件开发浏览器原理沟通能力优秀 下图是前端工程师图解:showImg(http://upload-images.jianshu.io/upload_images/1807893-de7c7404345922b6.jp...

    raise_yang 评论0 收藏0

发表评论

0条评论

simon_chen

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<