资讯专栏INFORMATION COLUMN

Tesseract图形识别软件的安装

freewolf / 3448人阅读

摘要:安装下载安装安装和这里只说系统下的安装,基本不会有什么问题。在利用调用时遇到以下错误系统找不到指定的文件。先用一个简单的验证码测试一下

安装

下载安装: tesseract

安装 pytesseractPillow

pip install pytesseract

pip install Pillow

这里只说 winsows 系统下的安装,linux 基本不会有什么问题。
在利用 pytesseract 调用 tesseract 时遇到以下错误:

FileNotFoundError: [WinError 2] 系统找不到指定的文件。

于是我看了下pytesseract源码,发现有这样的一行

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY

tesseract_cmd = "tesseract"

估计 windows 系统要手工添加环境变量,所以才产生的问题,于是又将 tesseract 添加到环境变量 Path 中,但还是会报错:

pytesseract.pytesseract.TesseractError: (1, "Error opening data file Program Files (x86)Tesseract-OCReng.traineddata")

这个是eng.traineddata文件路径有误才会出现的错误。

解决办法:

先查看tesseract有没有这个语言包,有CMD中输入命令:

tesseract --list-langs

结果:

List of available languages (2):
eng
osd

然后再查看然后再google搜索一下问题,发现还是 tesseract 的环境变量的问题,找到了下面这一句话

Please make sure the TESSDATA_PREFIX environment variableisset to the
parent directory of your"tessdata"directory.

于是新建的一个TESSDATA_PREFIX变量,指定tessdata的上级目录也就是C:Program Files (x86)Tesseract-OCR

安装完成。

先用一个简单的验证码测试一下:

from PIL import Image
import pytesseract
result = pytesseract.image_to_string(Image.open(r"F:PIN_ws692.jpg","r"), lang="eng") 
print(result)

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/40996.html

相关文章

  • Python3网络爬虫实战---4、数据库安装:MySQL、MongoDB、Redis

    摘要:运行结果如果运行结果一致则证明安装成功。上一篇文章网络爬虫实战请求库安装下一篇文章网络爬虫实战数据库的安装 上一篇文章:Python3网络爬虫实战---2、请求库安装:GeckoDriver、PhantomJS、Aiohttp下一篇文章:Python3网络爬虫实战---数据库的安装:MySQL、MongoDB、Redis 抓取下网页代码之后,下一步就是从网页中提取信息,提取信息的方式有...

    xbynet 评论0 收藏0
  • Tesseract 进行图像识别

    摘要:目前已作为开源项目发布在,其最新版本已经支持中文,并提供了一个命令行工具。他能够用来识别英文,但是不能识别中文。所以要下载中文的识别包这样就能识别中文。至少对印刷的中文字识别效果是很好的。 1. Tesseract 介绍 Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Te...

    Tecode 评论0 收藏0
  • node识别验证码

    摘要:验证码的识别成功率跟图片质量关系密切,一般拿到后的验证码都得经过灰度化,二值化,去噪,利用就可以很方便的做到。 了解验证码 什么是验证码? 所谓验证码,就是将一串随机产生的数字或符号,生成一幅图片,图片里加上一些干扰象素(防止OCR),由用户肉眼识别其中的验证码信息,输入表单提交网站验证,验证成功后才能使用某项功能,通俗说就是一种区分用户是计算机和人的公共全自动程序 验证码的作用 可以...

    levy9527 评论0 收藏0
  • Python图像处理之图片文字识别(OCR)

    摘要:与介绍将图片翻译成文字一般被称为光学文字识别,。是目前公认最优秀最精确的开源系统。我们以图片为例输入命令识别结果如下只识别错了一个字,识别率还是不错的。最后加一句,对于彩色图片的识别效果没有黑白图片的效果好。 OCR与Tesseract介绍   将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现OCR 的底层库并不多,...

    W4n9Hu1 评论0 收藏0
  • python利用Tesseract识别验证码

    摘要:无论是是自动化登录还是爬虫,总绕不开验证码,这次就来谈谈中光学识别验证码模块和。和是的一个识别库,但其实是对做的一层封装,是的引擎包装器所以它们的核心是因此在安装之前,我们需要先安装。 无论是是自动化登录还是爬虫,总绕不开验证码,这次就来谈谈python中光学识别验证码模块tesserocr和pytesseract。tesserocr和pytesseract是Python的一个OCR识...

    王陆宽 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<