我不是机器人：谷歌最新版验证码系统ReCaptcha破解已开源

ghnor 发布于2019-08-16 14:17 / 3234人阅读

摘要：验证码旨在确认访问者是人还是程序，并防止恶意程序的入侵。自年以来，改为在我不是机器人的方框中打勾，进而完成判别。

选自 Github 作者：George Hughey

机器之心编译

每个人都讨厌验证码，这些恼人的图片中包含你必须输入的字符，我们只有正确地填写才能继续访问网站。验证码旨在确认访问者是人还是程序，并防止恶意程序的入侵。然而，随着深度学习和计算机视觉技术的发展，现在这些认证方法可以被我们轻松破解了。

在这一个项目中，作者破解了最新版的 ReCaptcha，并开源了所有代码。不过项目作者声明：「这份代码能够解决最新版的 ReCaptcha，但仅限于在自己网站上使用，且仅用于教育目的。」

项目地址：
https://github.com/ecthros/un...

reCAPTCHA 项目是由卡内基梅隆大学开始构建的系统，这个项目将从书本上扫描下来、无法被 OCR 准确识别的文字显示在 CAPTCHA 问题中，从而判断访问者到底是程序还是人类。自 2014 年以来，reCAPTCHA 改为在「我不是机器人」（I"m not a robot）的方框中打勾，进而完成判别。

这个名为 unCaptcha 的项目最早创建于 2017 年 4 月，并在当时实现了 85% 的 ReCaptcha 对抗率。不过后来谷歌发布了新版本的 ReCaptcha，且新版的 ReCaptcha 主要有以下两个主要改进：

更好的浏览器自动检测使用短语语音而不是数字

这些改进最开始成功地防御了第一版 unCaptcha 的攻击，然而到了 18 年 6 月份，这些挑战基本都已被解决。本项目的作者同样与 ReCaptcha 团队取得了联系，他们完全了解这次攻击。此外，ReCaptcha 团队还允许该项目作者发布 unCaptcha2 的代码，尽管它目前仍然能有效破解 ReCaptcha 验证码。

unCaptcha2 简介

由于 ReCaptcha 添加了语音形式的验证码识别，破解 ReCaptcha 比以前变得更加容易。因为我们只需要调用一个免费的语音识别 API，对所有验证码的识别准确率就能达到 90% 左右。另外由于 ReCaptcha 会阻止浏览器自动化引擎 Selenium，unCaptcha2 会使用屏幕点击器（clicker）移动到屏幕上特定的像素，从而像人一样浏览网页。当然在模拟人类浏览的过程中，每一个新用户的坐标都需要更新，这个目前并不是太鲁棒。

unCaptcha2 的方法非常简洁：

导航至谷歌的 ReCaptcha 演示网站导航至 ReCaptcha 的语音库下载语音使用语音识别 API 识别语音解析 API 返回的参数和识别结果提交识别结果，判断是否成功

如下所示 unCaptcha2 的测试界面：

如何使用 unCaptcha2

因为 unCaptcha2 必须指定屏幕上的特定坐标，因此我们必须基于设置更新坐标。这些坐标更新的代码写在了 run.py 文件的最上面。在 Linux 系统中，使用命令行 xdotool getmouselocation—shell 可以定位鼠标在屏幕上的坐标位置。

我们还需要配置到底使用哪一个语音识别 API，国内的 BAT、讯飞和搜狗等都提供高效的语音识别 API，而国外的谷歌、微软和 IBM 也一样。谷歌、微软和 IBM 的的 API 结构都已经在 queryAPI.py 中，我们只需要配置用户名和密码就行了。如果你要使用谷歌 API，我们需要使用谷歌应用的证书参数配置环境变量 GOOGLE_APPLICATION_CREDENTIAL。

最后，安装剩下的依赖项就能愉快地破解了：pip install -r dependencies.txt。

阅读更多

阿里内部的那个牛逼带闪电的Java诊断工具终于开源了

一招教你打造一个滑动置顶的视觉特效

NDK项目实战—高仿360手机助手之卸载监听

（Android）面试题级答案（精选版）

相信自己，没有做不到的，只有想不到的

如果对技术开发比较感兴趣，欢迎关注一起交流和学习！

云服务器 GPU云服务器谷歌验证码下载破解验证码的图像识别库最新短信验证码平台最新的短信验证码平台

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/72904.html

为什么很多网站的验证码都设置得肉眼都很难识别？

摘要：为了应付这种情况，很多网站加大验证码识别难度，复杂的验证码甚至让用户都很难识别了，这种方式劣势十分明显，糟糕的用户体验最终会让网站流失用户，这便是为什么有人吐槽网站的验证码的原因了。欢迎访问网易云社区，了解更多网易技术产品运营经验。首先来谈谈验证码的机制，验证码作为一种人机识别手段，其终极目的，就是区分正常人和机器的操作。而对于没有验证码的场景，比如用户登陆，则机器可以同时、大批量...

lauren_liuling 2019-06-28 11:03 评论0 收藏0
1月第1周业务风控关注| 国家网信办启动专项行动剑指12类违法违规互联网信息

摘要：国家网信办启动专项行动剑指类违法违规互联网信息近日，针对网络生态问题频发各类有害信息屡禁不止等突出问题，为积极回应民众关切，国家网信办启动网络生态治理专项行动。中国铁路总公司官方微博回应网传信息不实，网站未发生用户信息泄露。易盾业务风控周报每周呈报值得关注的安全技术和事件，包括但不限于内容安全、移动安全、业务安全和网络安全，帮助企业提高警惕，规避这些似小实大、影响业务健康发展的安全风...

张巨伟 2019-06-28 11:11 评论0 收藏0
如何识别图片验证码？

摘要：图片验证码是目前最常用的一种。神经网络以上验证码识别都依赖于字符切分，切分的好坏几乎直接决定识别的准确程度。目前验证码识别最先进的是谷歌在识别街景图像中门牌号码中使用的一套的算法。全自动区分计算机和人类的图灵测试（Completely Automated Public Turing test to tell Computers and Humans Apart，简称CAPTCHA），...

y1chuan 2019-06-28 11:12 评论0 收藏0
文字检测识别系统好用吗？都针对什么进行识别？

摘要：神经网络以上验证码识别都依赖于字符切分，切分的好坏几乎直接决定识别的准确程度。目前验证码识别最先进的是谷歌在识别街景图像中门牌号码中使用的一套的算法。最近在一个爬虫项目中遇到了验证码，需要机器自动识别绕过。刚好与题主的问题类似，在这里做一些分享。在网上调研了资料和文献后，分别采用OCR识别和模板库匹配方法对不同类型验证码进行了识别。主要过程可以分解为三个步骤：1.图片清理，2.字符...

wanglu1209 2019-06-28 11:14 评论0 收藏0