摘要:其次,使用后,还需要针对做特定处理。看到这就可以构想一下爬虫的爬取逻辑了。
运行环境
我的运行环境如下:
系统版本
Windows10。
Python版本
Python3.5,推荐使用Anaconda 这个科学计算版本,主要是因为它自带一个包管理工具,可以解决有些包安装错误的问题。去Anaconda官网,选择Python3.5版本,然后下载安装。
IDE
我使用的是PyCharm,是专门为Python开发的IDE。这是JetBrians的产品
实战
上面提到过,网易云音乐的网页跟普通的网页相比主要有两点不同:
网页是 js 动态加载的
使用了iframe框架
所以,
首先,网页请求不能使用requests库,需要使用Selenium + PhatomJS。
其次,使用Selenium + PhatomJS后,还需要针对 iframe 做特定处理。
废话不多说,看实际操作步骤:
废话不多说,看实际操作步骤:
首先打开网页 http://music.163.com
在右上角的搜索框中输入“The Beatles”,然后会有一个下拉选项,选择歌手 The Beatles (红框中的内容)。
然后看到如下页面,选择红框中的“所有专辑”,点击。
这样就会看见所有的专辑列表,以及下方的翻页按钮。
我们需要的就是所有专辑的图片、专辑名和专辑出版时间。看到这就可以构想一下爬虫的爬取逻辑了。定位到该页面,然后获取页码,然后挨个请求页面来爬取页面中的内容。
点击一下翻页按钮看看url 有没有什么规律。
点击第二页后,看到上面的地址栏!!!看到这个地址栏我都懒得翻页了。。。
limit 参数是限制一个页面加载专辑的个数
offset 参数是前面过滤多少个专辑,现在是一页12个专辑,所以第二页是offset=12,第三页offset=24,以此类推。。。
一共9页,一页12个,也不到120个。So... ... 改一下url 就不用翻页了!!
limit 参数等于120,offset 参数 等于0,就搞定了!输入下面的url,看看是不是所有的专辑都加载出来了。
http://music.163.com/#/artist/album?id=101988&limit=120&offset=0
下面就开始爬虫代码了。
这里我们会用到上一篇博文中写好的几个工具方法:
""" 在学习过程中有什么不懂得可以加我的 python学习交流扣扣qun,934109170 群里有不错的学习教程、开发工具与电子书籍。 与你分享python企业当下人才需求及怎么从零基础学习好python,和学习什么内容。 """ def save_img(self, url, file_name): ##保存图片 print("开始请求图片地址,过程会有点长...") img = self.request(url) print("开始保存图片") f = open(file_name, "ab") f.write(img.content) print(file_name,"图片保存成功!") f.close() def request(self, url): #封装的requests 请求 r = requests.get(url) # 像目标url地址发送get请求,返回一个response对象。有没有headers参数都可以。 return r def mkdir(self, path): ##这个函数创建文件夹 path = path.strip() isExists = os.path.exists(path) if not isExists: print("创建名字叫做", path, "的文件夹") os.makedirs(path) print("创建成功!") return True else: print(path, "文件夹已经存在了,不再创建") return False def get_files(self, path): #获取文件夹中的文件名称列表 pic_names = os.listdir(path) return pic_names
OK, 开始我们的爬虫逻辑部分:
这里值得注意的是,该页面使用frame 框架,使用Selenium + PhantomJS 后并不会加载iframe 框架中的网页内容。iframe 框架相当于在页面中又加载了一个页面,需要使用Selenium 的 switch_to.frame() 方法加载(官网给的方法是switch_to_frame(),但是IDE提醒使用前面的方法替代该方法)。
看下面的网页结构,iframe的id是“g_iframe”:
加载 iframe 框架中的内容:
driver = webdriver.PhantomJS() driver.get(self.init_url) driver.switch_to.frame("g_iframe") html = driver.page_source
然后找到所有的封面元素:
根据上图的网页结构可以看出,所有的专辑信息都在ul 标签里面,每一个专辑在一个li 标签里。li 标签中包含了图片url、专辑名字、以及专辑时间。
抓取其中的内容就好了。
all_li = BeautifulSoup(html, "lxml").find(id="m-song-module").find_all("li") for li in all_li: album_img = li.find("img")["src"] album_name = li.find("p", class_="dec")["title"] album_date = li.find("span", class_="s-fc3").get_text()
这里获取到的图片url 依然是有图片宽高参数的,所以要过滤宽高参数:
http://p4.music.126.net/pLA1G...
把问号后面的参数过滤掉:
end_pos = album_img.index("?") #找到问号的位置 album_img_url = album_img[:end_pos] #截取问号之前的内容
图片命名逻辑:专辑时间 + 专辑名。
专辑名可能有一些特殊字符,需要替换掉!
photo_name = album_date + " - " + album_name.replace("/","").replace(":",",") + ".jpg"
再使用上一篇博文例子中的去重逻辑,修改后的爬虫逻辑部分如下:
def spider(self): print("Start!") driver = webdriver.PhantomJS() driver.get(self.init_url) driver.switch_to.frame("g_iframe") html = driver.page_source self.mkdir(self.folder_path) # 创建文件夹 print("开始切换文件夹") os.chdir(self.folder_path) # 切换路径至上面创建的文件夹 file_names = self.get_files(self.folder_path) # 获取文件夹中的所有文件名,类型是list all_li = BeautifulSoup(html, "lxml").find(id="m-song-module").find_all("li") # print(type(all_li)) for li in all_li: album_img = li.find("img")["src"] album_name = li.find("p", class_="dec")["title"] album_date = li.find("span", class_="s-fc3").get_text() end_pos = album_img.index("?") album_img_url = album_img[:end_pos] photo_name = album_date + " - " + album_name.replace("/","").replace(":",",") + ".jpg" print(album_img_url, photo_name) if photo_name in file_names: print("图片已经存在,不再重新下载") else: self.save_img(album_img_url, photo_name)
其实相对于上篇博文的例子,这个爬虫的逻辑部分还是挺简洁的。
from selenium import webdriver from bs4 import BeautifulSoup import requests import os class AlbumCover(): def __init__(self): self.init_url = "http://music.163.com/#/artist/album?id=101988&limit=120&offset=0" #请求网址 self.folder_path = "C:DTheBeatles" #想要存放的文件目录 def save_img(self, url, file_name): ##保存图片 print("开始请求图片地址,过程会有点长...") img = self.request(url) print("开始保存图片") f = open(file_name, "ab") f.write(img.content) print(file_name, "图片保存成功!") f.close() def request(self, url): # 封装的requests 请求 r = requests.get(url) # 像目标url地址发送get请求,返回一个response对象。有没有headers参数都可以。 return r def mkdir(self, path): ##这个函数创建文件夹 path = path.strip() isExists = os.path.exists(path) if not isExists: print("创建名字叫做", path, "的文件夹") os.makedirs(path) print("创建成功!") return True else: print(path, "文件夹已经存在了,不再创建") return False def get_files(self, path): # 获取文件夹中的文件名称列表 pic_names = os.listdir(path) return pic_names def spider(self): print("Start!") driver = webdriver.PhantomJS() driver.get(self.init_url) driver.switch_to.frame("g_iframe") html = driver.page_source self.mkdir(self.folder_path) # 创建文件夹 print("开始切换文件夹") os.chdir(self.folder_path) # 切换路径至上面创建的文件夹 file_names = self.get_files(self.folder_path) # 获取文件夹中的所有文件名,类型是list all_li = BeautifulSoup(html, "lxml").find(id="m-song-module").find_all("li") # print(type(all_li)) for li in all_li: album_img = li.find("img")["src"] album_name = li.find("p", class_="dec")["title"] album_date = li.find("span", class_="s-fc3").get_text() end_pos = album_img.index("?") album_img_url = album_img[:end_pos] photo_name = album_date + " - " + album_name.replace("/", "").replace(":", ",") + ".jpg" print(album_img_url, photo_name) if photo_name in file_names: print("图片已经存在,不再重新下载") else: self.save_img(album_img_url, photo_name) album_cover = AlbumCover() album_cover.spider()
执行结果:
看看文件夹里面什么样:
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/45157.html
摘要:其次,使用后,还需要针对做特定处理。看到这就可以构想一下爬虫的爬取逻辑了。 运行环境 我的运行环境如下: 系统版本 Windows10。 Python版本 Python3.5,推荐使用Anaconda 这个科学计算版本,主要是因为它自带一个包管理工具,可以解决有些包安装错误的问题。去Anaconda官网,选择Python3.5版本,然后下载安装。 IDE 我使用的是PyCharm,是专...
摘要:完整代码如下正在下载根据网易云歌曲的直接下载歌曲上安装爬取网易云歌曲源码地址 首发知乎:https://zhuanlan.zhihu.com/p/... 目标 偶然的一次机会听到了房东的猫的《云烟成雨》,瞬间迷上了这慵懒的嗓音和学生气的歌词,然后一直去循环听她们的歌。然后还特意去刷了动漫《我是江小白》,好期待第二季... 我多想在见你,哪怕匆匆一眼就别离... 好了,不说废话了。这次...
摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...
摘要:通常这种加密都是通过加密的,所以首先要找到这个有加密算法的。追踪函数,发现它指向一个叫的函数,仔细研究许久后大概知道加密算法经两次加密获得,模式为,偏移量为。 前言 某宝评论区已经成功爬取了,jd的也是差不多的方法,说实话也没什么好玩的,我是看上它们分析简单,又没加密才拿来试手的。如果真的要看些有趣的评论的话,我会选择网易云音乐,里面汇聚了哲学家,小说家,story-teller,皮皮...
阅读 1948·2021-09-26 10:19
阅读 3194·2021-09-24 10:25
阅读 1569·2019-12-27 11:39
阅读 1877·2019-08-30 15:43
阅读 613·2019-08-29 16:08
阅读 3463·2019-08-29 16:07
阅读 878·2019-08-26 11:30
阅读 1226·2019-08-26 10:41