资讯专栏INFORMATION COLUMN

爬虫基础练习-python批量下载图片之达盖尔的旗帜

pepperwang / 1141人阅读

摘要:三个重点,我隐藏了的地址,本爬虫只适用于的抓取。每个帖子以帖子名为文件名新建一个文件并把帖子内图片保存下来。

三个重点,我隐藏了1024的地址,本爬虫只适用于1024的抓取。每个帖子以帖子名为文件名新建一个文件并把帖子内图片保存下来。

url_start设置起始页 url_end设置结束页
有问题的留言,我看到就会回复

1编码 2文章页链接匹配 3文件夹操作

import requests
import re
import time
from bs4 import BeautifulSoup
import os

url_start = "url1"
url_end = "url2"


# 获取图片链接并保存到文件夹的函数
def getIMG(article_url):
    # time.sleep(1)
    urls = []
    try:
        html = requests.get(article_url)
        html.encoding = "gbk"
        soup = BeautifulSoup(html.text, "html.parser")
        part_picURL = re.findall("src="http://img(.+?.jpg)"",html.text,re.S)
        for each in part_picURL:
            picURL = "http://img" + each
            urls.append(picURL)
        i=0
        for each in urls:
            try:
                pic = requests.get(each, timeout = 10)
                folder_name = soup.select("h4")[0].text
                if os.path.isdir(folder_name):
                    pass
                else:
                    os.mkdir(folder_name)
                    print("文件夹"+ "$ " + folder_name + "$" + "创建完成")
                file_name = folder_name+"/" + folder_name + str(i) + ".jpg"
                fp = open(file_name,"wb")
                fp.write(pic.content)
                fp.close()
                i += 1
            except:
                pass
        print("图片下载完成")
    except:
        pass
    return urls


url_list = []
#获取当前页面文章列表链接并翻页
def getlist(url_Start):
    headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36"}
    req = requests.get(url_Start)
    req.encoding = "gbk"
    url_index = re.findall(""打開新窗口" href="htm_(.+?.html)" target="_blank">",req.text,re.S)
    for p in url_index:
        full_url = "http://cl.gtta.pw/htm_" + p
        url_list.append(full_url)
    #判断是否要翻页
    urls_next = re.findall("false;}">下一頁",req.text,re.S)[0]
    url_next = "http://cl.gtta.pw/" + urls_next
    if url_next != url_end:
        getlist(url_next)
    else:
        print("已到达末页")
    return url_list


lists = getlist(url_start)
print(len(lists))
for list in lists:
    img = getIMG(list)
    print(img)





文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/38440.html

相关文章

  • 爬虫 - 收藏集 - 掘金

    摘要:在这之前,还是有必要对一些概念超轻量级反爬虫方案后端掘金前言爬虫和反爬虫日益成为每家公司的标配系统。 爬虫修炼之道——从网页中提取结构化数据并保存(以爬取糗百文本板块所有糗事为例) - 后端 - 掘金欢迎大家关注我的专题:爬虫修炼之道 上篇 爬虫修炼之道——编写一个爬取多页面的网络爬虫主要讲解了如何使用python编写一个可以下载多页面的爬虫,如何将相对URL转为绝对URL,如何限速,...

    1fe1se 评论0 收藏0
  • 爬虫基础练习python爬虫下载豆瓣妹子图片

    摘要:下载指定网站上的妹子图片,这里只抓了前页的图片,可根据需要自己设置页数值为图片类型,大家可以自行更改值体验一下,有问题留言给我,看到就会解答大胸妹美腿控有颜值大杂烩小翘臀链接已处理完毕图片下载完成 下载指定网站上的妹子图片,这里只抓了前100页的图片,可根据需要自己设置页数cat值为图片类型,大家可以自行更改cat值体验一下,有问题留言给我,看到就会解答2 = 大胸妹3 = 美腿控4 ...

    klinson 评论0 收藏0
  • 学习python12小时后,告诉你,学python真没你想那么难!

    摘要:列入全国计算机二级取代,部分城市试点,引入高中。建议通过视频学习,这样不但节省时间,而且效果很好。能否回忆起那个陡峭的学习曲线问题越多,学的越快。出报告每完成一个项目,总结报告,必不可少。结构化学习,才是你我需要真正培养的能力。 编程就如同你学习开车,即使,你可以一口气,说出一辆车的全部零部件,以及内燃机进气、压缩、做功和排气过程,但你就是不去练如何开车,怎么上路。你确定,你敢开吗?你...

    Kaede 评论0 收藏0
  • 首次公开,整理12年积累博客收藏夹,零距离展示《收藏夹吃灰》系列博客

    摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...

    Harriet666 评论0 收藏0
  • 基础如何学爬虫技术

    摘要:楚江数据是专业的互联网数据技术服务,现整理出零基础如何学爬虫技术以供学习,。本文来源知乎作者路人甲链接楚江数据提供网站数据采集和爬虫软件定制开发服务,服务范围涵盖社交网络电子商务分类信息学术研究等。 楚江数据是专业的互联网数据技术服务,现整理出零基础如何学爬虫技术以供学习,http://www.chujiangdata.com。 第一:Python爬虫学习系列教程(来源于某博主:htt...

    KunMinX 评论0 收藏0

发表评论

0条评论

pepperwang

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<