资讯专栏INFORMATION COLUMN

Python爬虫实战:1000图库大全【别轻易点进来】

番茄西红柿 / 3131人阅读

摘要:大家好我是辣条。今天给大家带来爬虫实战例之篇爬虫之路永无止境。

大家好,我是辣条。

今天给大家带来【爬虫实战100例】之41篇,爬虫之路永无止境。

爬取目标

网址:尺度有点大,遭不住...

效果展示

工具准备

开发工具:pycharm 开发环境:python3.7, Windows11 使用工具包:requests

项目解析思路

获取当当前网页的跳转地址,当前页面为主页面数据,我们需要的数据别有一番天地,获取到网页信息提取出所有的跳转地址,获取到源码里的a标签就行当前网页的加载方式为静态数据,直接请求网页地址;

url = 'https://www.xxxx.com/

从源代码里提取到所以的跳转地址

提取的方式可自行选择,小编这里使用正则的方式提取数据,提取详情页面的地址以及标题,用来保存图片起名字,获取到进入详情页面的地址后对地址发送请求,详情页面的数据也分为很多的页面,每个页面有好几张图片,需要对网址进行拼接,构造出新的地址信息,

    for i in range(1, int(page_num[0]) + 1):        if i == 1:            new_url = info_url        else:            new_url = info_url.replace('.html', f'_{i}.html')        # print(new_url)        jpg_data = requests.get(new_url, headers=headers).content.decode('gbk')

请求之后提取出所有的图片地址在对图片地址发送请求,保存数据大功告成!!

简易源码分享

import requests   import re        ​headers = {    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'}for i in range(1, 20):    url = 'https://www.xxxx.com/guoneimeinv/list_5_{}.html'.format(i)    response = requests.get(url, headers=headers)    # print(response.content.decode('gbk'))    # 提取想要的数据信息    data_list = re.findall(' 
  • ', response.content.decode('gbk'))    # print(data_list)    num = 0    for info_url, title in data_list:        # print(info_url)         # print(title)        res = requests.get(info_url, headers=headers).content.decode('gbk')        # print(res)        page_num = re.findall('
  • 共(.*?)页:
  • ', res)        # print(page_num)​        for i in range(1, int(page_num[0]) + 1):            if i == 1:                new_url = info_url            else:                new_url = info_url.replace('.html', f'_{i}.html')            # print(new_url)            jpg_data = requests.get(new_url, headers=headers).content.decode('gbk')            # print(jpg_data)            jpg_url_list = re.findall('


    ', jpg_data)            # print(jpg_url_list)            for jgp_url in jpg_url_list:                result = requests.get(jgp_url, headers=headers).content                f = open('1000图库/' + title + "-" + str(num) + ".jpg", 'wb')                f.write(result)                num += 1                print(f"正在下载{title}第{num}张")
  •   👇🏻 疑难解答、学习资料、路线图可通过搜索下方 👇🏻

    文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

    转载请注明本文地址:https://www.ucloud.cn/yun/122985.html

    相关文章

    • Evil Python

      摘要:用将倒放这次让我们一个用做一个小工具将动态图片倒序播放发现引力波的机构使用的包美国科学家日宣布,他们去年月首次探测到引力波。宣布这一发现的,是激光干涉引力波天文台的负责人。这个机构诞生于上世纪年代,进行引力波观测已经有近年。 那些年我们写过的爬虫 从写 nodejs 的第一个爬虫开始陆陆续续写了好几个爬虫,从爬拉勾网上的职位信息到爬豆瓣上的租房帖子,再到去爬知乎上的妹子照片什么的,爬虫...

      Turbo 评论0 收藏0
    • python kotlin 人工智能 资料大全

      摘要:重新定义实战链接提取码征服语言基础与典型应用链接提取码算法图解像小说一样有趣的算法入门书链接提取码数据科学导论语言实现链接提取码数据结构与算法语言描述裘宗燕编著北京机械工业出版社链接提取码深入实践陈韶健链接提取码深入浅出链接提取码柯林斯英 重新定义Spring Cloud实战链接: https://pan.baidu.com/s/1sjl6...提取码: nn38 征服PYTHON-语...

      dailybird 评论0 收藏0
    • python kotlin 人工智能 资料大全

      摘要:重新定义实战链接提取码征服语言基础与典型应用链接提取码算法图解像小说一样有趣的算法入门书链接提取码数据科学导论语言实现链接提取码数据结构与算法语言描述裘宗燕编著北京机械工业出版社链接提取码深入实践陈韶健链接提取码深入浅出链接提取码柯林斯英 重新定义Spring Cloud实战链接: https://pan.baidu.com/s/1sjl6...提取码: nn38 征服PYTHON-语...

      Scliang 评论0 收藏0
    • python kotlin 人工智能 资料大全

      摘要:重新定义实战链接提取码征服语言基础与典型应用链接提取码算法图解像小说一样有趣的算法入门书链接提取码数据科学导论语言实现链接提取码数据结构与算法语言描述裘宗燕编著北京机械工业出版社链接提取码深入实践陈韶健链接提取码深入浅出链接提取码柯林斯英 重新定义Spring Cloud实战链接: https://pan.baidu.com/s/1sjl6...提取码: nn38 征服PYTHON-语...

      buildupchao 评论0 收藏0
    • Python各热门方向常用学习、工作网址大全【7000字大总结】

      摘要:做这一领域的工作,有很多网站能够起到辅助性的作用。再加上爬虫相对于其他热门方向来说,更容易学。也促使更多人会优先选择学习爬虫。能够代替手工完成手工无法完成的测试任务,并且可以记录相关数据及报告。 ...

      linkFly 评论0 收藏0

    发表评论

    0条评论

    最新活动
    阅读需要支付1元查看
    <