资讯专栏INFORMATION COLUMN

Android OCR之tesseract

AWang / 1396人阅读

摘要:开始之旅相关常量设置训练数据路径,必须包含文件夹识别语言英文识别语言简体中文英文识别设置图片可以缓存获取缓存的初始化的训练数据路径与语言设置识别模式设置要识别的图片简体中文识别与英文识别类似。

Android OCR之tesseract 1. 开源工具简介

tesseract是非常有名的开源OCR工具,但是要将它配置到Android开发环境中可能要费点功夫,别担心,github上面有好人帮助我们封装了Android开发环境的tesseract配置,这就是Android平台上OCR开源项目tess-two。

2. 环境配置

利用tess-two配置OCR环境非常简单。

首先,设置工程的ndk路径。

其次,在模块中添加依赖:compile "com.rmtheis:tess-two:6.0.0"

3. 数据准备

要进行OCR还要获取训练数据tessdata,下载该训练数据,到时候将训练数据弄到自己的Android设备上就行了。

注意:不要把所有训练数据都弄到Android设备上,因为训练数据比较大,需要用到什么语言的数据就只把这些语言对应的数据弄到Android设备上。

比如,我一般识别只用到识别英文与简体中文,因此只需要将eng.traineddata,chi_sim.traineddata弄到Android设备上就行了。

4. 开始Android OCR之旅

相关常量设置:

    //训练数据路径,必须包含tesseract文件夹
    static final String TESSBASE_PATH = "/storage/emulated/0/Download/tesseract/";
    //识别语言英文
    static final String DEFAULT_LANGUAGE = "eng";
    //识别语言简体中文
    static final String CHINESE_LANGUAGE = "chi_sim";  

英文识别:

     public void EnglishOCR(){
        //设置图片可以缓存
        english.setDrawingCacheEnabled(true);
        //获取缓存的bitmap
        final Bitmap bmp = english.getDrawingCache();
        final TessBaseAPI baseApi = new TessBaseAPI();
        //初始化OCR的训练数据路径与语言
        baseApi.init(TESSBASE_PATH, DEFAULT_LANGUAGE);
        //设置识别模式
        baseApi.setPageSegMode(TessBaseAPI.PageSegMode.PSM_SINGLE_LINE);
        //设置要识别的图片
        baseApi.setImage(bmp);
        english.setImageBitmap(bmp);
        englishtext.setText(baseApi.getUTF8Text());
        baseApi.clear();
        baseApi.end();
     }  

简体中文识别与英文识别类似。

5. 程序界面

程序源代码下载:https://github.com/lavor-zl/FunctionsDemo

欢迎关注我的微信公众号:Android技术漫谈

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/65958.html

相关文章

  • Python图像处理图片文字识别(OCR

    摘要:与介绍将图片翻译成文字一般被称为光学文字识别,。是目前公认最优秀最精确的开源系统。我们以图片为例输入命令识别结果如下只识别错了一个字,识别率还是不错的。最后加一句,对于彩色图片的识别效果没有黑白图片的效果好。 OCR与Tesseract介绍   将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现OCR 的底层库并不多,...

    W4n9Hu1 评论0 收藏0
  • 识别图片中的文字 - Tesseract 和 百度云OCR的对比

    摘要:一个简单的图片转文字的函数实现如下。百度云这是偶然的发现,百度云提供了一定额度的免费的,目前是每日次,做做研究或者小应用还勉强够用,本文主要为了测试其效果。论中文,还是百度比谷歌更懂一点。 当今时代人工智能都已经是烂大街的词了,OCR应该也很多人都知道。 OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印...

    mushang 评论0 收藏0
  • [译]OpenCV OCR and text recognition with Tesseract

    摘要:纳入深度学习模型来进一步提升准确率只是时间问题,事实上,这个时间已经到来。最新版本支持基于深度学习的,准确率显著提高。该函数使用基于深度学习的文本检测器来检测不是识别图像中的文本区域。高效使用概率最高的文本区域,删除其他重叠区域。 By Adrian Rosebrock on September 17, 2018 in Deep Learning, Optical Character ...

    gnehc 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<