摘要:对新手来说,难点部分在于如何找到并成功跳转到下一页,并且在最后一页的时候识别出来并停止爬虫。一个很基础的爬虫。
这是一个很好的新手练习项目,爬取豆瓣top250的电影,并分别记录排名、片名、导演、主演、评论等信息,保存在一个txt文档里。
对新手来说,难点部分在于如何找到并成功跳转到下一页,并且在最后一页的时候识别出来并停止爬虫。
一个很基础的爬虫。以下是代码部分。
import requests from bs4 import BeautifulSoup import time import re lurl = "https://movie.douban.com/top250" movie = [] def getlist(listurl): time.sleep(2) headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36"} res = requests.get(listurl) soup = BeautifulSoup(res.text, "html.parser") movielist = soup.select(".grid_view li") for m in movielist: rank = m.select("em")[0].text title = m.select(".title")[0].text direct = m.select(".info .bd p")[0].text.strip() actor = " 主演:".join(direct.split(" 主演:")) director = "年代:".join(actor.split(" ")) if m.select(".inq"): comments = m.select(".inq")[0].text.strip() else: comments = "None" movie.append("排名: "+ rank+ " " +"片名: "+ title + " "+ director + " " + "评论: "+ comments +" " + " ") if soup.select(".next a"): asoup = soup.select(".next a")[0]["href"] Next_page = lurl + asoup getlist(Next_page) else: print("结束") return movie movies = getlist(lurl) with open("movie.txt", "w") as m: for a in movies: m.write(a)
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/38370.html
摘要:根据在年的调查显示,近的数据科学家使用作为主要的编程语言,每一次的进步都是它成为数据分析主流工具的重要因素。根据进行的一项调查显示,在上的月活跃用户的占比在年后大幅上升。 昨天,微信的Python交流群出现了这样的对话: showImg(https://segmentfault.com/img/bVbjV16?w=700&h=425); 看到这部分代码交流,让我不禁感受到Python的...
摘要:楚江数据是专业的互联网数据技术服务,现整理出零基础如何学爬虫技术以供学习,。本文来源知乎作者路人甲链接楚江数据提供网站数据采集和爬虫软件定制开发服务,服务范围涵盖社交网络电子商务分类信息学术研究等。 楚江数据是专业的互联网数据技术服务,现整理出零基础如何学爬虫技术以供学习,http://www.chujiangdata.com。 第一:Python爬虫学习系列教程(来源于某博主:htt...
摘要:前言新接触爬虫,经过一段时间的实践,写了几个简单爬虫,爬取豆瓣电影的爬虫例子网上有很多,但都很简单,大部分只介绍了请求页面和解析部分,对于新手而言,我希望能够有一个比较全面的实例。 0.前言 新接触爬虫,经过一段时间的实践,写了几个简单爬虫,爬取豆瓣电影的爬虫例子网上有很多,但都很简单,大部分只介绍了请求页面和解析部分,对于新手而言,我希望能够有一个比较全面的实例。所以找了很多实例和文...
摘要:本文内容爬取豆瓣电影页面内容,字段包含排名,片名,导演,一句话描述有的为空,评分,评价人数,上映时间,上映国家,类别抓取数据存储介绍爬虫框架教程一入门创建项目创建爬虫注意,爬虫名不能和项目名一样应对反爬策略的配置打开文件,将修改为。 本文内容 爬取豆瓣电影Top250页面内容,字段包含:排名,片名,导演,一句话描述 有的为空,评分,评价人数,上映时间,上映国家,类别 抓取数据存储 ...
摘要:注意爬豆爬一定要加入选项,因为只要解析到网站的有,就会自动进行过滤处理,把处理结果分配到相应的类别,但偏偏豆瓣里面的为空不需要分配,所以一定要关掉这个选项。 本课只针对python3环境下的Scrapy版本(即scrapy1.3+) 选取什么网站来爬取呢? 对于歪果人,上手练scrapy爬虫的网站一般是官方练手网站 http://quotes.toscrape.com 我们中国人,当然...
阅读 1731·2023-04-25 23:43
阅读 908·2021-11-24 09:39
阅读 713·2021-11-22 15:25
阅读 1710·2021-11-22 12:08
阅读 1085·2021-11-18 10:07
阅读 2066·2021-09-23 11:22
阅读 3338·2021-09-22 15:23
阅读 2469·2021-09-13 10:32