摘要:抓取并生成预先呈现的内容即。自动表单提交,测试,键盘输入等。创建一个最新的自动化测试环境。使用最新的的和浏览器功能,直接在最新版本的浏览器中运行测试。捕获您网站的时间线跟踪,以帮助诊断性能问题。
木偶 Puppeteer
更友好的 Headless Chrome Node APIPuppeteer是什么?
木偶也是有心的 (=・ω・=)
Puppeteer是一个Node库,它提供了一个高级API来通过DevTools协议控制无头 Chrome或Chromium ,它也可以配置为使用完整(非无头)Chrome或Chromium。
你可以通过Puppeteer的提供的api直接控制Chrome模拟大部分用户操作来进行UI Test或者作为爬虫访问页面来收集数据。
为什么会产生Puppeteer呢?很早很早之前,前端就有了对 headless 浏览器的需求,最多的应用场景有两个
UI 自动化测试:摆脱手工浏览点击页面确认功能模式
爬虫:解决页面内容异步加载等问题
在Chrome headless 和Puppeteer出现之前,headless 浏览器有以下几种:
PhantomJS, 基于 Webkit
SlimerJS, 基于 Gecko
HtmlUnit, 基于 Rhnio
TrifleJS, 基于 Trident
Splash, 基于 Webkit
但这些都有共同的通病,环境安装复杂,API 调用不友好
2017 年 Chrome 官方团队连续放了两个大招 Headless Chrome 和对应的 NodeJS API Puppeteer,直接让 PhantomJS 和 Selenium IDE for Firefox 作者宣布暂停继续维护其产品,PhantomJs的开发者更直接宣称自己要失业了。
Puppeteer能做什么?你可以在浏览器中手动完成的大部分事情都可以使用Puppteer完成
比如:
生成页面的屏幕截图和PDF。
抓取SPA并生成预先呈现的内容(即“SSR”)。
自动表单提交,UI测试,键盘输入等。
创建一个最新的自动化测试环境。使用最新的的JavaScript和浏览器功能,直接在最新版本的Chrome浏览器中运行测试。
捕获您网站的时间线跟踪,以帮助诊断性能问题。
入门安装Puppeteer
npm install puppeteer 或者 yarn add puppeteer
Puppeteer至少需要Node v6.4.0,但如果想要使用async / await,它仅在Node v7.6.0或更高版本中受支持。实例一 截屏保存
导航到 https://example.com 并将截屏保存为 example.png:
const puppeteer = require("puppeteer"); async function screenShot(url, path, name) { await console.log("Screen Shot ... "); await console.log("Save path: " + path + name + ".png"); const browser = await puppeteer.launch(); const page = await browser.newPage(); await page.goto(url); await page.screenshot({path: path + name + ".png"}); await browser.close(); }
puppeteer 默认的页面大小为800x600分辨率,页面的大小可以通过Page.setViewport()来更改
实例二 创建一个PDFconst puppeteer = require("puppeteer"); async function downloadPdf(url, path, name) { await console.log("Download Pdf ... "); await console.log("Save path: " + path + name + ".pdf"); const browser = await puppeteer.launch(); const page = await browser.newPage(); //networkidle2: consider navigation to be finished when there are no more than 2 network connections for at least 500 ms. await page.goto(url, {waitUntil: "networkidle2"}); await page.pdf({path: path + name + ".pdf", format: "A4"}); await browser.close(); }实例三 在渲染的页面中执行代码
const puppeteer = require("puppeteer"); async function getDimension(url) { const browser = await puppeteer.launch({headless: false}); const page = await browser.newPage(); await page.goto(url); // Get the "viewport" of the page, as reported by the page. const dimensions = await page.evaluate(() => { return { width: document.documentElement.clientWidth, height: document.documentElement.clientHeight, deviceScaleFactor: window.devicePixelRatio }; }); console.log("Dimensions:", dimensions); // await browser.close(); }进阶
page.type 获取输入框焦点并输入文字
page.keyboard.press 模拟键盘按下某个按键,目前mac上组合键无效为已知bug
page.waitFor 页面等待,可以是时间、某个元素、某个函数
page.frames() 获取当前页面所有的 iframe,然后根据 iframe 的名字精确获取某个想要的 iframe
iframe.$(".srchsongst") 获取 iframe 中的某个元素
iframe.evaluate() 在浏览器中执行函数,相当于在控制台中执行函数,返回一个 Promise
Array.from 将类数组对象转化为对象
page.click() 点击一个元素
iframe.$eval() 相当于在 iframe 中运行 document.queryselector 获取指定元素,并将其作为第一个参数传递
iframe.$$eval 相当于在 iframe 中运行 document.querySelectorAll 获取指定元素数组,并将其作为第一个参数传递
还是看 这篇文章 吧,作者写了两个实例Demo,看一下代码就能懂上面的基础用法了。
一些默认的设置和开发调试建议 1. 使用Headless模式Puppeteer默认以Headless模式加载Chromium,如果想加载完整的Chromium(这样方便观察网页加载的效果究竟是怎么样的),可以执行以下命令
const browser = await puppeteer.launch({headless: false}); // default is true2. 使执行本地版本的Chrome或者Chromium
const browser = await puppeteer.launch({executablePath: "/path/to/Chrome"});3. 延迟执行Puppeteer
const browser = await puppeteer.launch({ headless: false, slowMo: 250 // slow down by 250ms });4. 获取控制台输出
可以监听console的事件,也可以通过evaluate来执行console
page.on("console", msg => console.log("PAGE LOG:", msg.text())); await page.evaluate(() => console.log(`url is ${location.href}`));5. 设置页面视窗大小
await page.setViewport({ width: 1366, height: 768 * 2 });
参考链接
Puppeteer的入门教程和实践 任乃千 https://www.jianshu.com/p/2f0...
官方文档 https://github.com/GoogleChro...
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/95648.html
摘要:首先介绍是一个库,他提供了一组用来操纵的默认也就是无的,也可以配置为有有点类似于,但是官方团队进行维护的,前景更好。使用,相当于同时具有和的能力,应用场景会非常多。 首先介绍Puppeteer Puppeteer是一个node库,他提供了一组用来操纵Chrome的API(默认headless也就是无UI的chrome,也可以配置为有UI) 有点类似于PhantomJS,但Puppet...
摘要:获取获取上下文句柄执行计算销毁句柄除此之外,还可以使用意为在浏览器环境执行脚本,可传入第二个参数作为句柄,而则针对选中的一个元素执行操作。 我们日常使用浏览器或者说是有头浏览器时的步骤为:启动浏览器、打开一个网页、进行交互。 无头浏览器指的是我们使用脚本来执行以上过程的浏览器,能模拟真实的浏览器使用场景。 有了无头浏览器,我们就能做包括但不限于以下事情: 对网页进行截图保存为图片或 ...
摘要:技术纵横调试指南协议是新加入的调试协议,通过与交互,同时基于浏览器的提供了图形化的调试界面。使得多业务线在复杂架构情况下能够独立开发测试,互不干扰,并统一调用接口。技术周刊由小组出品,汇聚一周好文章,周刊原文。 本期推荐 写在 2017 的前端数据层不完全指北 在前端技术的发展中,各个层面演进出不同的技术方案,如数据类型层面的 TypeScript,Flow,PropTypes,应用架...
摘要:前端日报精选无头浏览器初探鼠标无限移动简介译深入分析变更检测发布前必须排查的安全如何开发中文第期关键和减少阻塞渲染的的自动化解决方案译网页设计掘金年最受欢迎的个编程挑战网站简书系列和深入理解掘金发布后台管理系统,没错,它就是你想 2017-10-18 前端日报 精选 无头浏览器 Puppeteer 初探鼠标无限移动 JS API Pointer Lock简介[译] 深入分析 Angul...
阅读 732·2023-04-25 19:28
阅读 1394·2021-09-10 10:51
阅读 2391·2019-08-30 15:55
阅读 3410·2019-08-26 13:55
阅读 2998·2019-08-26 13:24
阅读 3327·2019-08-26 11:46
阅读 2752·2019-08-23 17:10
阅读 1416·2019-08-23 16:57