摘要:年月日爬取,爬虫代码不知道是否失效文章目录爬虫目标具体过程源码爬虫目标要求搜索大数据专业,爬相关公司的招聘信息。
2021年10月7日爬取,爬虫代码不知道是否失效
要求:搜索“大数据”专业,爬相关公司的招聘信息。列数不少于10列,行数不少于3000 。
目标:搜索“大数据”,爬取智联招聘 北京上海广州深圳天津武汉西安 职位名称,企业名称,薪资,什么市(区),学历要求,经验要求,公司规模,公司性质,工作类型,详情页链接https
登录网站,搜索大数据,右键查看网页源代码
Ctrl+F搜索大数据工程师,发现数据都在网页源代码中
基本思路有了,可用正则直接在源码里匹配得到数据,也可以打开开发者工具抓包分析接口用scrapy爬。这篇博客用正则表达式匹配。
pycharm响应成功。
然后用正则写代码就行了。
import reimport requestsimport timeheaders = {"User-Agent": "登陆后自己的user-agent", "Cookie":"登陆后自己的cookie" }for page in range(1,28): #北京上海广州深圳天津武汉西安的url url=f"https://sou.zhaopin.com/?jl=854&kw=%E5%A4%A7%E6%95%B0%E6%8D%AE&p={page}" time.sleep(5) #停顿5秒 response = requests.get(url, headers=headers).text for i in range(30): #每页有最多30条数据 name = re.findall(r""matchInfo":.*?"name":"(.*?)"", response)[i] #工作名称 companyName = re.findall(r""companyName":"(.*?)"", response)[i] cityDistrict=re.findall(r""cityDistrict":"(.*?)"",response)[i] education=re.findall(r""education":"(.*?)"",response)[i] #学历 salary60=re.findall(r""salary60":"(.*?)"",response)[i] #薪资 workingExp=re.findall(r""workingExp":"(.*?)"",response)[i] #经验要求 property=re.findall(r""property":"(.*?)"",response)[i] #公司性质 companySize=re.findall(r""companySize":"(.*?)"",response)[i] #公司规模 workType = re.findall(r""workType":"(.*?)"", response)[i] #工作类型 positionURL=re.findall(r""positionURL":"(.*?)"",response)[i]#详情页链接 f = open("zhilian.csv", "a", encoding="utf8") f.write("{},{},{},{},{},{},{},{},{},{}/n".format(name, companyName, cityDistrict,education,salary60,workingExp,property,companySize,workType,positionURL)) f.close()
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/124522.html
摘要:智联其实一共写了两次,有兴趣的可以在源码看看,第一版的是回调版,只能一次一页的爬取。 写在前面的话, .......还是不写了,直接上效果图。附上源码地址 github.lonhon showImg(https://segmentfault.com/img/bVUM3F?w=714&h=543);showImg(https://segmentfault.com/img/bVUM...
摘要:日前,简历大数据公司巧达科技被警方一锅端,高管和员工全部被带走。买卖简历,直接违法。三人累计贩卖个人简历万余份,智联招聘由此蒙受损失近 日前,简历大数据公司巧达科技被警方一锅端,高管和员工全部被带走。到底发生了什么? 一 、为什么公司全员被抓?3月14日团队被警方带走,有HR等非核心成员回家,但核心高管依然失...
摘要:网页源码解析智联招聘搜索列表一开始必须要解析智联招聘搜索列表页,从这里更方便实现各种深层级数据抓取。显示不同源码也不同,尽量选列表模式,源码更好解析。 网页源码解析 - 智联招聘搜索列表 一开始必须要解析智联招聘搜索列表页,从这里更方便实现各种深层级数据抓取。网页地址是:http://sou.zhaopin.com/jobs/searchresult.ashx 搜索参数 智联招聘的服务...
摘要:日前,简历大数据公司巧达科技被警方一锅端,高管和员工全部被带走。买卖简历,直接违法。三人累计贩卖个人简历万余份,智联招聘由此蒙受损失近日前,简历大数据公司巧达科技被警方一锅端,高管和员工全部被带走。到底发生了什么? 一 、为什么公司全员被抓? 3月14日团队被警方带走,有HR等非核心成员回家,但核心高管依然失联中。3月25日,一位巧达科技前员工告诉燃财经。 在天眼查中北京...
阅读 2671·2023-04-25 17:21
阅读 2518·2021-11-23 09:51
阅读 2789·2021-09-24 10:32
阅读 3692·2021-09-23 11:33
阅读 1946·2019-08-30 15:44
阅读 3435·2019-08-30 11:18
阅读 3418·2019-08-30 10:53
阅读 603·2019-08-26 13:25