摘要:项目分析爬取智联网站上的全国的竞争最激烈三个月内前十的岗位。模块专为服务器设计的核心的快速,灵活和精益的实现。核心代码发起请求获取到的内容放到模块遍历是通过分析页面结构得到的打印数据执行就会得到如下结果。
node爬虫
什么是爬虫呢,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。为什么选用node呢,因为我是前端,当然要用js实现。
项目分析爬取http://top.zhaopin.com 智联网站上的全国的竞争最激烈三个月内前十的岗位。不需要定时爬取。使用request和cheerio模块。node版本7.6.0、npm版本4.1.2
安装npm install request cheerio -S
request 模块是一个简化的HTTP客户端。
cheerio 模块专为服务器设计的核心jQuery的快速,灵活和精益的实现。可以把爬到的内容和jQuery一样使用。
// app.js const request = require("request"); const cheerio = require("cheerio"); // 发起请求 request("http://top.zhaopin.com", (error, response, body) => { if(error){ console.error(error); } let json = {}; // 获取到的内容放到cheerio模块 const $ = cheerio.load(body); // jQuery 遍历 #hotJobTop .topList li 是通过http://top.zhaopin.com 分析页面结构得到的 $("#hotJobTop .topList li").each(function (index) { let obj = json[index] = {}; obj.name = $(this).find(".title").text().trim(); obj.num = $(this).find(".paddingR10").text().trim(); }); // 打印数据 console.log(json); });
执行 node app.js 就会得到如下结果。
[ { name: "Java开发工程师", num: "340538人/天" }, { name: "软件工程师", num: "220873人/天" }, { name: "销售代表", num: "175053人/天" }, { name: "会计/会计师", num: "168225人/天" }, { name: "行政专员/助理", num: "150913人/天" }, { name: "WEB前端开发", num: "140979人/天" }, { name: "助理/秘书/文员", num: "139098人/天" }, { name: "软件测试", num: "136399人/天" }, { name: "人力资源专员/助理", num: "123482人/天" }, { name: "用户界面(UI)设计", num: "107505人/天" } ]
一个简单的爬虫就写好了,看看前十有没有你从事的岗位吧!
我的博客和github地址http://blog.langpz.com
https://github.com/lanpangzhi
参考https://github.com/request/request
https://github.com/cheeriojs/cheerio
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/104389.html
摘要:之前接了一个活,做的功能是从智联招聘爬取招聘信息赚了几百块零花钱实现了一个,如图虽然比较丑,但是简洁明了,落落大方已经是我水平的天花板了具体功能说明就不了,大家都能看懂的。。。。智联招聘链接网页是这个样子的,反爬虫不强。 之前接了一个活,做的功能是从智联招聘爬取招聘信息赚了几百块零花钱实现了一个GUI,如图:showImg(https://segmentfault.com/img/bV...
摘要:智联其实一共写了两次,有兴趣的可以在源码看看,第一版的是回调版,只能一次一页的爬取。 写在前面的话, .......还是不写了,直接上效果图。附上源码地址 github.lonhon showImg(https://segmentfault.com/img/bVUM3F?w=714&h=543);showImg(https://segmentfault.com/img/bVUM...
摘要:网页源码解析智联招聘信息页面根据招聘列表里面跳转过来的详细招聘信息页面。巨优信息是法国阿尔卡特朗讯公司企业通信系统全国金牌代理商,同时也是华为思科等国际知名品牌的核心合作伙伴。主页是智联招聘里唯一能够让企业自己定制的页面了。 网页源码解析 - 智联招聘信息页面 根据招聘列表里面跳转过来的详细招聘信息页面。爬虫再根据这里进行关键信息提取。相比于搜索列表页来说,这页内容很简单,而我们需要的...
摘要:年月日爬取,爬虫代码不知道是否失效文章目录爬虫目标具体过程源码爬虫目标要求搜索大数据专业,爬相关公司的招聘信息。 2021年10月7日爬取,爬虫代码不知道是否失效 ...
摘要:网页源码解析智联招聘搜索列表一开始必须要解析智联招聘搜索列表页,从这里更方便实现各种深层级数据抓取。显示不同源码也不同,尽量选列表模式,源码更好解析。 网页源码解析 - 智联招聘搜索列表 一开始必须要解析智联招聘搜索列表页,从这里更方便实现各种深层级数据抓取。网页地址是:http://sou.zhaopin.com/jobs/searchresult.ashx 搜索参数 智联招聘的服务...
阅读 1476·2023-04-25 15:50
阅读 1283·2021-09-22 15:49
阅读 2891·2021-09-22 15:06
阅读 3487·2019-08-30 15:54
阅读 2286·2019-08-29 11:33
阅读 2094·2019-08-23 17:56
阅读 2106·2019-08-23 17:06
阅读 1265·2019-08-23 15:55