Node 批量爬取头条视频并保存

Jioby 发布于2019-06-21 16:18 / 974人阅读

摘要：目标网站西瓜视频项目功能下载头条号维辰财经下的最新个视频项目地址地址姊妹项目批量下载美女图集简介一般批量爬取视频或者图片的套路是，使用爬虫获得文件链接集合，然后通过等方法逐个保存文件。然而在批量下载时，逐个手动的获取视频链接显然不可取。

目标网站：西瓜视频
项目功能：下载头条号【维辰财经】下的最新20个视频
项目地址：Github 地址
姊妹项目：批量下载美女图集

简介

一般批量爬取视频或者图片的套路是，使用爬虫获得文件链接集合，然后通过 writeFile 等方法逐个保存文件。然而，头条的视频，在需要爬取的 html 文件（服务端渲染输出）中，无法捕捉视频链接。视频链接是页面在客户端渲染时，通过某些 js 文件内的算法或者解密方法，根据视频的已知 key 或者 hash 值，动态计算出来并添加到 video 标签的。这也是网站的一种反爬措施。

我们在浏览这些页面时，通过审核元素，可以看到计算后的文件地址。然而在批量下载时，逐个手动的获取视频链接显然不可取。开心的是，puppeteer 提供了模拟访问 Chrome 的功能，使我们可以爬取经过浏览器渲染出来的最终页面。

项目启动

命令

npm i
npm start

Notice: 安装 puppeteer 的过程稍慢，耐心等待。

配置文件

// 配置相关
module.exports =  {
  originPath: "https://www.ixigua.com", // 页面请求地址
  savePath: "D:/videoZZ" // 存放路径
}

技术点

puppeteer

官方API

puppeteer 提供一个高级 API 来控制 Chrome 或者 Chromium。

puppeteer 主要作用：

利用网页生成 PDF、图片

爬取SPA应用，并生成预渲染内容（即“SSR” 服务端渲染）

可以从网站抓取内容

自动化表单提交、UI测试、键盘输入等

使用到的 API：

puppeteer.launch() 启动浏览器实例

browser.newPage() 创建一个新页面

page.goto() 进入指定网页

page.screenshot() 截图

page.waitFor() 页面等待，可以是时间、某个元素、某个函数

page.$eval() 获取一个指定元素，相当于 document.querySelector

page.$$eval() 获取某类元素，相当于 document.querySelectorAll

page.$("#id .className") 获取文档中的某个元素，操作类似jQuery

代码示例

const puppeteer = require("puppeteer");
 
(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto("https://example.com");
  await page.screenshot({path: "example.png"});
 
  await browser.close();
})();

视频文件下载方法

下载视频主方法

const downloadVideo = async video => {
  // 判断视频文件是否已经下载
  if (!fs.existsSync(`${config.savePath}/${video.title}.mp4`)) {
    await getVideoData(video.src, "binary").then(fileData => {
      console.log("下载视频中：", video.title)
      savefileToPath(video.title, fileData).then(res =>
        console.log(`${res}: ${video.title}`)
      )
    })
  } else {
    console.log(`视频文件已存在：${video.title}`)
  }
}

获取视频数据

getVideoData (url, encoding) {
  return new Promise((resolve, reject) => {
    let req = http.get(url, function (res) {
      let result = ""
      encoding && res.setEncoding(encoding)
      res.on("data", function (d) {
        result += d
      })
      res.on("end", function () {
        resolve(result)
      })
      res.on("error", function (e) {
        reject(e)
      })
    })
    req.end()
  })
}

将视频数据保存到本地

savefileToPath (fileName, fileData) {
  let fileFullName = `${config.savePath}/${fileName}.mp4`
  return new Promise((resolve, reject) => {
    fs.writeFile(fileFullName, fileData, "binary", function (err) {
      if (err) {
        console.log("savefileToPath error:", err)
      }
      resolve("已下载")
    })
  })
}

爬取结果截图

说明

此爬虫仅用于个人学习，如果侵权，即刻删除！

云服务器 GPU云服务器并保存截图保存并显示 php保存图片并压缩 js动态添加行并保存

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/11070.html

Python3网络爬虫实战---36、分析Ajax爬取今日头条街拍美图

摘要：上一篇文章网络爬虫实战数据爬取下一篇文章网络爬虫实战动态渲染页面抓取本节我们以今日头条为例来尝试通过分析请求来抓取网页数据的方法，我们这次要抓取的目标是今日头条的街拍美图，抓取完成之后将每组图片分文件夹下载到本地保存下来。上一篇文章：Python3网络爬虫实战---35、 Ajax数据爬取下一篇文章：Python3网络爬虫实战---37、动态渲染页面抓取:Selenium 本节我们...

Leck1e 2019-07-31 10:36 评论0 收藏0
☀️在爬完一周的朋友圈后，我发现了.......惊人⚠️秘密

各位童鞋，大家好，我是? 在《⭐UI自动化工具轻松实现微信消息收发⚡朋友圈爬取⁉️》文末给童鞋们布置了一个作业，批量朋友圈爬取，不知道大伙们是否还有映像。看到很多小伙伴们踊跃报名参与，不禁要给你们点个赞。考虑到很多小伙伴想做却做出来，这…贴心的我这不就来给你们公布参考答案啦？对相关基础还不了解的童鞋请参考前文：《⭐UI自动化工具轻松实现微信消息收发⚡朋友圈爬取⁉️》《️❤️对比PyWi...

Cympros 2021-09-02 15:11 评论0 收藏0
Python 爬取CSDN的极客头条

摘要：爬取的极客头条工具分析使用浏览器调试面板分析网页结构以及网络请求，容易知道，每一个头条信息结构如图所示因此，我们可以通过定位元素，同时，根据面板的网络请求分析，第一次加载更多数据的请求为第二次的为上述请求已精简，删除了原有请求的部分参数 Python 爬取CSDN的极客头条工具 Python Python：requests Python：BeautifulSoup 分析使用浏览...

CatalpaFlat 2019-07-31 11:00 评论0 收藏0