资讯专栏INFORMATION COLUMN

我用Python爬取了女神视界,爬虫之路永无止境「内附源码」

niuxiaowei111 / 2635人阅读

摘要:我发现抖音上很多小姐姐就拍个跳舞的视频就火了,大家是冲着舞蹈水平去的吗,都是冲着颜值身材去的,能刷到这篇文章的都是了,我就跟大家不一样了,一个个刷太麻烦了,我直接爬下来看个够,先随意展示两个。

我发现抖音上很多小姐姐就拍个跳舞的视频就火了,大家是冲着舞蹈水平去的吗,都是冲着颜值身材去的,能刷到这篇文章的都是lsp了,我就跟大家不一样了,一个个刷太麻烦了,我直接爬下来看个够,先随意展示两个。

采集目标

爬取目标:女神世界

效果展示

工具使用

使用环境:Python3.7 工具:pycharm 第三方库:requests, re, pyquery

爬虫思路:

  1. 获取的是视频数据 (16进制字节)
  2. 在这个页面没有视频地址 需要进去详情页 所有需要从 视频播放页开始抓取

使用快捷键 F12 进入开发者控制台:

先不急, 找到 视频地址 去搜索他 看看在哪里有包含:

定位他 发现是静态页面返回的数据:

上代码:

def Tools(url):# 封装一个工具函数 用来做请求的    headers = {        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52"    }    response = requests.get(url, headers=headers)    return responseurl = "https://www.520mmtv.com/9614.html"response = Tools(url).textvideo_url = re.findall(r"url: "(.*?)",", response)[0] # 正则表达式提取 视频地址video_content = Tools(video_url).content# 视频地址存储 需要在代码同路径 手动创建 短视频文件夹with open("./短视频/123.mp4", "ab") as f:    f.write(video_content)​# 下载了一个

def main():    url = "https://www.520mmtv.com/hd/rewu.html"    response = Tools(url).text    doc = pq(response) # 创建pyquery对象 注意根据css的 class 类选择 和id选择器进行数据提取    i_list = doc(".i_list.list_n2.cxudy-list-formatvideo a").items() # .类选择器 中间有空格的 记得替换成.    meta_title = doc(".meta-title").items() # 标题    for i, t in zip(i_list, meta_title):        href = i.attr("href")        Play(t.text(), href)

全部代码:

import requestsimport refrom pyquery import PyQuery as pqdef Tools(url):    headers = {        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52"    }    response = requests.get(url, headers=headers)    return responsedef Play(title, url):    # url = "https://www.520mmtv.com/9614.html"    response = Tools(url).text    video_url = re.findall(r"url: "(.*?)",", response)[0]    video_content = Tools(video_url).content    with open("./短视频/{}.mp4".format(title), "ab") as f:        f.write(video_content)        print("{}下载完成....".format(title))def main():    url = "https://www.520mmtv.com/hd/rewu.html"    response = Tools(url).text    doc = pq(response) # 创建pyquery对象 注意根据css的 class 类选择 和id选择器进行数据提取    i_list = doc(".meta-title").items() # .类选择器 中间有空格的 记得替换成.    meta_title = doc(".meta-title").items() # 标题    for i, t in zip(i_list, meta_title):        href = i.attr("href")        Play(t.text(), href)if __name__ == "__main__":    main()

下载比较慢网络不好,你网快的话 ,就下载快。

效果:

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/123091.html

相关文章

  • 我用Python取了五千张美女图壁纸,每天一张忘记初恋!

    摘要:爱美之心人皆有之,正所谓窈窕淑女君子好逑,美好敲代码的一天从好看的桌面壁纸开始,好看的桌面壁纸从美女壁纸开始。 大家好,我是辣条,这是我爬虫系列的第26篇。 爱美之心人皆有之,正所谓窈窕淑女君子好逑,美好敲代码的一天从好看的桌面壁纸开始,好看的桌面壁纸从美女壁纸开始。今天给大家带来福利啦,爬...

    huaixiaoz 评论0 收藏0
  • 首次公开,整理12年积累的博客收藏夹,零距离展示《收藏夹吃灰》系列博客

    摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...

    Harriet666 评论0 收藏0
  • Python爬虫实战:1000图库大全【别轻易点进来】

    摘要:大家好我是辣条。今天给大家带来爬虫实战例之篇爬虫之路永无止境。 大家好,我是辣条。 今天给大家带来【爬虫实战100例】之41篇,爬虫之路永无止境。 爬取目标 网址:尺度有点大,遭不住... 效果展示 工具准备 开发工具ÿ...

    番茄西红柿 评论0 收藏2637
  • node.js 爬取招聘信息分析各职业钱途(爬虫+动态IP代理+数据可视化分析)

    摘要:成功爬取了拉钩网上多个招聘岗位的具体信息后,数据可视化并得出分析结果如下从整体看,北上广深杭这五个城市前端工程师招聘岗位,北京是遥遥领先,是深圳的两倍,是广州的三倍,其次到上海,深圳,杭州,广州居末。 前前言 本文首发于 github blog 不想看爬虫过程只想看职位钱途数据分析请看这里:前端招聘岗位分析C++招聘岗位分析JAVA招聘岗位分析PHP招聘岗位分析Python招聘岗位分析...

    546669204 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<