基于Python爬取天眼查网站的企业信息

waltr 发布于2019-07-31 10:13 / 2820人阅读

摘要：爬虫简介这是一个在未登录的情况下，根据企业名称搜索，爬取企业页面数据的采集程序注意这是一个比较简单的爬虫，基本上只用到了代理，没有用到其他的反反爬技术，不过由于爬取的数据比较多，适合刷解析技能的熟练度，所以高手勿进代码已经上传到上，有用还请

爬虫简介

这是一个在未登录的情况下，根据企业名称搜索，爬取企业页面数据的采集程序

注意: 这是一个比较简单的爬虫，基本上只用到了代理，没有用到其他的反反爬技术，不过由于爬取的数据比较多，适合刷解析技能的熟练度，所以高手勿进

代码已经上传到GitHub上，有用还请给个星

python版本：python2.7

编码工具：pycharm

数据存储：mysql

爬虫结构：广度爬虫

爬虫思路：

先获取需要采集信息的公司：

从数据库中获取

获取字段：etid，etname

将获取的数据存储的状态表中

从状态表中获取数据，并更新状态表

拼接初始URL：

将etname和初始url进行拼接，获得初始网址

将初始url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另一个列表中，进行循环获取

请求解析初始一级页面：

验证查询的公司是否正确（？？）

获取二级页面url

将二级url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另一个列表中，进行循环获取

请求解析二级页面：

获取的信息待定

将公司的信息存储到数据库中：

建表

存储信息

所建的表：

企业主要信息： et_host_info

工商信息： et_busi_info

分支机构信息： et_branch_office

软件著作权信息： et_container_copyright_info

网站备案信息： et_conrainer_icp_info

对外投资信息： et_foreign_investment_info

融资信息： et_rongzi_info

股东信息： et_stareholder_info

商标信息： et_trademark_info

微信公众号信息：et_wechat_list_info

状态表： et_name_status

看一下部分的结果图：

云服务器 GPU云服务器天眼查基于python的网站查网站备案信息基于python的图像识别

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/43471.html

这是一个爬虫—爬取天眼查网站的企业信息

摘要：爬虫简介这是一个在未登录的情况下，根据企业名称搜索，爬取企业页面数据的采集程序注意这是一个比较简单的爬虫，基本上只用到了代理，没有用到其他的反反爬技术，不过由于爬取的数据比较多，适合刷解析技能的熟练度，所以高手勿进代码已经上传到上，有用还请爬虫简介 showImg(https://segmentfault.com/img/remote/1460000018233494?w=1088&...

xeblog 2019-07-31 10:05 评论0 收藏0
Python 爬虫数据写入csv文件中文乱码解决以及天眼查爬虫数据写入csv

摘要：爬虫数据写入文件中文乱码，用在中打开文件没有问题，但是用打开却出现了问题，以下为解决方法。 python爬虫数据写入csv文件中文乱码，用’utf-8‘在pycharm中打开文件没有问题，但是用excel打开却出现了问题，以下为解决方法。（最近在练习爬虫，这个博文是对自己学习的记录和分享，...

zone 2021-09-22 10:02 评论0 收藏0
首次公开，整理12年积累的博客收藏夹，零距离展示《收藏夹吃灰》系列博客

摘要：时间永远都过得那么快，一晃从年注册，到现在已经过去了年那些被我藏在收藏夹吃灰的文章，已经太多了，是时候把他们整理一下了。那是因为收藏夹太乱，橡皮擦给设置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 评论0 收藏0
1.2-知识图谱有什么用？

摘要：知识图谱经过几年的发展已经得到广泛的应用。例如，某地区某行业连续出现了多笔逾期贷款，通过对行业和客户的知识图谱进行分析，可以及时发现该地区相关行业存在潜在风险的客户。知识图谱经过几年的发展已经得到广泛的应用。当知识图谱遇上人工智能，更加突显出了它的优势和价值。最先应用于搜索 ![用Google搜索泰姬陵]() 最典型的就是在谷歌搜索引擎里面应用。谷歌是在2012年率先提出来知识图...

bergwhite 2019-08-16 17:59 评论0 收藏0