爬虫学习笔记：练习爬取多页天涯帖子

wuaiqiu 发布于2019-07-30 15:41 / 1663人阅读

摘要：引入库和请求头文件定义主体函数。函数主体由四部分组成请求网址解析网页，形成可查找的格式通过或者查找需要的标签通过代码将多个内容合并在一起在这里构造一个两层链接结构帖子的页和帖子的详情页的关系在这里实现要注意，这里的是不包括在范围里的

今天练习了抓取多页天涯帖子，重点复习的知识包括

soup.find_all和soup.selcet两个筛选方式对应不同的参数；

希望将获取到的多个内容组合在一起返回的时候，要用"zip()"的代码来实现；

两层代码结构之间的关系如何构造；

这里有一个疑问：有时候一个标签可以有多个属性，不知道soup.find_all()能不能接受不止一个属性以缩小查找的范围。

# 引入库和请求头文件
import requests
from bs4 import BeautifulSoup
headers = {
    "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36"
}

# 定义主体函数。函数主体由四部分组成：
#1.请求网址
#2.解析网页，形成可查找的html格式
#3.通过soup.select或者sopu.find_all查找需要的标签
#4.通过zip()代码将多个内容合并在一起

def get_content(url):
    res = requests.get(url,headers = headers)
    res.encoding = "utf-8"
    soup = BeautifulSoup(res.text,"html.parser")
    contents = soup.find_all("div","bbs-content")
    authors = soup.find_all("a","js-vip-check")
    for author,content in zip(authors,contents):
        data = {
        "author":author.get_text().strip(),
        "content": content.get_text().strip()
    }
        print(data)
# 在这里构造一个两层链接结构：帖子的1、2、3、4页和帖子的详情页的关系在这里实现
if __name__ == "__main__":
    urls = ["http://bbs.tianya.cn/post-develop-2271894-{}.shtml".format(str(i))  for i in range (1,5)] # 要注意，这里的‘5’是不包括在范围里的
    for url in urls:
        get_content(url)

云服务器 GPU云服务器爬虫爬取数据 java爬虫爬取数据深度学习练习机器学习练习题

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/41408.html

如何快速掌握Python数据采集与网络爬虫技术

摘要：通过本文的学习，可以快速掌握网络爬虫基础，结合实战练习，写出一些简单的爬虫项目。从技术手段来说，网络爬虫有多种实现方案，如。二网络爬虫技术基础在本次课中，将使用技术手段进行项目的编写。摘要：本文详细讲解了python网络爬虫，并介绍抓包分析等技术，实战训练三个网络爬虫案例，并简单补充了常见的反爬策略与反爬攻克手段。通过本文的学习，可以快速掌握网络爬虫基础，结合实战练习，写出一些简单的...

W4n9Hu1 2019-07-30 16:09 评论0 收藏0
零基础如何学爬虫技术

摘要：楚江数据是专业的互联网数据技术服务，现整理出零基础如何学爬虫技术以供学习，。本文来源知乎作者路人甲链接楚江数据提供网站数据采集和爬虫软件定制开发服务，服务范围涵盖社交网络电子商务分类信息学术研究等。楚江数据是专业的互联网数据技术服务，现整理出零基础如何学爬虫技术以供学习，http://www.chujiangdata.com。第一：Python爬虫学习系列教程（来源于某博主：htt...

KunMinX 2019-07-25 11:29 评论0 收藏0
首次公开，整理12年积累的博客收藏夹，零距离展示《收藏夹吃灰》系列博客

摘要：时间永远都过得那么快，一晃从年注册，到现在已经过去了年那些被我藏在收藏夹吃灰的文章，已经太多了，是时候把他们整理一下了。那是因为收藏夹太乱，橡皮擦给设置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 评论0 收藏0
爬虫 - 收藏集 - 掘金

摘要：在这之前，还是有必要对一些概念超轻量级反爬虫方案后端掘金前言爬虫和反爬虫日益成为每家公司的标配系统。爬虫修炼之道——从网页中提取结构化数据并保存（以爬取糗百文本板块所有糗事为例） - 后端 - 掘金欢迎大家关注我的专题：爬虫修炼之道上篇爬虫修炼之道——编写一个爬取多页面的网络爬虫主要讲解了如何使用python编写一个可以下载多页面的爬虫，如何将相对URL转为绝对URL，如何限速，...

1fe1se 2019-07-31 10:58 评论0 收藏0
node爬虫快速入门

摘要：爬虫初入前端，刚刚接触，对于耳闻已久的爬虫非常神往，所以有了这篇文章，项目代码在文章末尾需求抓取天涯论坛重庆地区板块的文章列表信息。 node爬虫初入前端，刚刚接触node，对于耳闻已久的node爬虫非常神往，所以有了这篇文章，项目代码在文章末尾需求抓取天涯论坛重庆地区板块的文章列表信息。使用工具 node.js superagent(客户端请求代理模块) cheerio...

simon_chen 2019-08-22 14:00 评论0 收藏0