摘要:我发现抖音上很多小姐姐就拍个跳舞的视频就火了,大家是冲着舞蹈水平去的吗,都是冲着颜值身材去的,能刷到这篇文章的都是了,我就跟大家不一样了,一个个刷太麻烦了,我直接爬下来看个够,先随意展示两个。
我发现抖音上很多小姐姐就拍个跳舞的视频就火了,大家是冲着舞蹈水平去的吗,都是冲着颜值身材去的,能刷到这篇文章的都是lsp了,我就跟大家不一样了,一个个刷太麻烦了,我直接爬下来看个够,先随意展示两个。
爬取目标:女神世界
使用环境:Python3.7 工具:pycharm 第三方库:requests, re, pyquery
使用快捷键 F12 进入开发者控制台:
先不急, 找到 视频地址 去搜索他 看看在哪里有包含:
定位他 发现是静态页面返回的数据:
def Tools(url):# 封装一个工具函数 用来做请求的 headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52" } response = requests.get(url, headers=headers) return responseurl = "https://www.520mmtv.com/9614.html"response = Tools(url).textvideo_url = re.findall(r"url: "(.*?)",", response)[0] # 正则表达式提取 视频地址video_content = Tools(video_url).content# 视频地址存储 需要在代码同路径 手动创建 短视频文件夹with open("./短视频/123.mp4", "ab") as f: f.write(video_content)# 下载了一个
def main(): url = "https://www.520mmtv.com/hd/rewu.html" response = Tools(url).text doc = pq(response) # 创建pyquery对象 注意根据css的 class 类选择 和id选择器进行数据提取 i_list = doc(".i_list.list_n2.cxudy-list-formatvideo a").items() # .类选择器 中间有空格的 记得替换成. meta_title = doc(".meta-title").items() # 标题 for i, t in zip(i_list, meta_title): href = i.attr("href") Play(t.text(), href)
import requestsimport refrom pyquery import PyQuery as pqdef Tools(url): headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52" } response = requests.get(url, headers=headers) return responsedef Play(title, url): # url = "https://www.520mmtv.com/9614.html" response = Tools(url).text video_url = re.findall(r"url: "(.*?)",", response)[0] video_content = Tools(video_url).content with open("./短视频/{}.mp4".format(title), "ab") as f: f.write(video_content) print("{}下载完成....".format(title))def main(): url = "https://www.520mmtv.com/hd/rewu.html" response = Tools(url).text doc = pq(response) # 创建pyquery对象 注意根据css的 class 类选择 和id选择器进行数据提取 i_list = doc(".meta-title").items() # .类选择器 中间有空格的 记得替换成. meta_title = doc(".meta-title").items() # 标题 for i, t in zip(i_list, meta_title): href = i.attr("href") Play(t.text(), href)if __name__ == "__main__": main()
下载比较慢网络不好,你网快的话 ,就下载快。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/123091.html
摘要:爱美之心人皆有之,正所谓窈窕淑女君子好逑,美好敲代码的一天从好看的桌面壁纸开始,好看的桌面壁纸从美女壁纸开始。 大家好,我是辣条,这是我爬虫系列的第26篇。 爱美之心人皆有之,正所谓窈窕淑女君子好逑,美好敲代码的一天从好看的桌面壁纸开始,好看的桌面壁纸从美女壁纸开始。今天给大家带来福利啦,爬...
摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...
摘要:大家好我是辣条。今天给大家带来爬虫实战例之篇爬虫之路永无止境。 大家好,我是辣条。 今天给大家带来【爬虫实战100例】之41篇,爬虫之路永无止境。 爬取目标 网址:尺度有点大,遭不住... 效果展示 工具准备 开发工具ÿ...
摘要:成功爬取了拉钩网上多个招聘岗位的具体信息后,数据可视化并得出分析结果如下从整体看,北上广深杭这五个城市前端工程师招聘岗位,北京是遥遥领先,是深圳的两倍,是广州的三倍,其次到上海,深圳,杭州,广州居末。 前前言 本文首发于 github blog 不想看爬虫过程只想看职位钱途数据分析请看这里:前端招聘岗位分析C++招聘岗位分析JAVA招聘岗位分析PHP招聘岗位分析Python招聘岗位分析...
阅读 2180·2021-11-19 09:55
阅读 2636·2021-11-11 16:55
阅读 3172·2021-09-28 09:36
阅读 1945·2021-09-22 16:05
阅读 3269·2019-08-30 15:53
阅读 1805·2019-08-30 15:44
阅读 2897·2019-08-29 13:10
阅读 1338·2019-08-29 12:30