摘要:爬虫简介这是一个在未登录的情况下,根据企业名称搜索,爬取企业页面数据的采集程序注意这是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技术,不过由于爬取的数据比较多,适合刷解析技能的熟练度,所以高手勿进代码已经上传到上,有用还请
爬虫简介
这是一个在未登录的情况下,根据企业名称搜索,爬取企业页面数据的采集程序
注意: 这是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技术,不过由于爬取的数据比较多,适合刷解析技能的熟练度,所以高手勿进
代码已经上传到GitHub上,有用还请给个星
python版本:python2.7
编码工具:pycharm
数据存储:mysql
爬虫结构:广度爬虫
爬虫思路:
先获取需要采集信息的公司:
从数据库中获取
获取字段:etid,etname
将获取的数据存储的状态表中
从状态表中获取数据,并更新状态表
拼接初始URL:
将etname和初始url进行拼接,获得初始网址
将初始url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取
请求解析初始一级页面:
验证查询的公司是否正确(??)
获取二级页面url
将二级url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取
请求解析二级页面:
获取的信息待定
将公司的信息存储到数据库中:
建表
存储信息
所建的表:企业主要信息: et_host_info
工商信息: et_busi_info
分支机构信息: et_branch_office
软件著作权信息: et_container_copyright_info
网站备案信息: et_conrainer_icp_info
对外投资信息: et_foreign_investment_info
融资信息: et_rongzi_info
股东信息: et_stareholder_info
商标信息: et_trademark_info
微信公众号信息:et_wechat_list_info
状态表: et_name_status
看一下部分的结果图:文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/43220.html
摘要:爬虫简介这是一个在未登录的情况下,根据企业名称搜索,爬取企业页面数据的采集程序注意这是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技术,不过由于爬取的数据比较多,适合刷解析技能的熟练度,所以高手勿进代码已经上传到上,有用还请 爬虫简介 showImg(https://segmentfault.com/img/remote/1460000018233494?w=1088&...
摘要:爬虫数据写入文件中文乱码,用在中打开文件没有问题,但是用打开却出现了问题,以下为解决方法。 python爬虫数据写入csv文件中文乱码,用’utf-8‘在pycharm中打开文件没有问题,但是用excel打开却出现了问题,以下为解决方法。 (最近在练习爬虫,这个博文是对自己学习的记录和分享,...
摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...
摘要:日前,简历大数据公司巧达科技被警方一锅端,高管和员工全部被带走。买卖简历,直接违法。三人累计贩卖个人简历万余份,智联招聘由此蒙受损失近日前,简历大数据公司巧达科技被警方一锅端,高管和员工全部被带走。到底发生了什么? 一 、为什么公司全员被抓? 3月14日团队被警方带走,有HR等非核心成员回家,但核心高管依然失联中。3月25日,一位巧达科技前员工告诉燃财经。 在天眼查中北京...
摘要:日前,简历大数据公司巧达科技被警方一锅端,高管和员工全部被带走。买卖简历,直接违法。三人累计贩卖个人简历万余份,智联招聘由此蒙受损失近 日前,简历大数据公司巧达科技被警方一锅端,高管和员工全部被带走。到底发生了什么? 一 、为什么公司全员被抓?3月14日团队被警方带走,有HR等非核心成员回家,但核心高管依然失...
阅读 2099·2021-11-11 16:55
阅读 3169·2021-10-11 10:58
阅读 3037·2021-09-13 10:28
阅读 3966·2021-07-26 23:57
阅读 1005·2019-08-30 15:56
阅读 1330·2019-08-29 13:15
阅读 1257·2019-08-26 18:18
阅读 1263·2019-08-26 13:44