OCR 图像矫正

wenshi11019 发布于2019-07-31 10:10 / 1448人阅读

摘要：一般来说，分为分割和识别两个部分。此文将探讨分割问题。通常我们第一步是将用户传入的照片进行扫描，提取待识别的区域，也就如图下面将文件抠出来。

OCR（Optical Character Recognition，光学字符识别）是指电子设备检查纸上字符然后用字符识别方法将形状翻译成计算机文字的过程；采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。
一般来说，OCR分为分割和识别两个部分。此文将探讨分割问题。
通常我们第一步是将用户传入的照片进行扫描，提取待识别的区域，也就如图下面将文件抠出来。

具体步骤：
（1）获取文件轮廓
（2）获取文件四角的点坐标
（3）透视变换

导入库

import numpy as np
import cv2
import matplotlib.pyplot as plt
import math

获取文件轮廓

image = cv2.imread("原始照片.jpg")                                             #读原始照片
gray = cv2.cvtColor(image,cv2.COLOR_BGR2GRAY)                                 #二值化
gray = cv2.GaussianBlur(gray, (5, 5), 0)                                      #高斯滤波
kernel = np.ones((3,3),np.uint8)  
dilation = cv2.dilate(gray,kernel)                                            #膨胀
edged = cv2.Canny(dilation, 30, 120)                                          #边缘提取
_, cnts, hierarchy = cv2.findContours(edged,cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_NONE)
cv2.drawContours(image,cnts,-1,(0,0,255),3)

获取文件四角点的坐标

cnts0=cnts[0]
cnts1=cnts[1]

rect = np.zeros((4,2), dtype="float32")

rect[0] = cnts1[np.argmin(np.sum(cnts1,axis=-1))]
rect[2] = cnts0[np.argmax(np.sum(cnts0,axis=-1))]
rect[1] = cnts1[np.argmin(np.diff(cnts1,axis=-1))]
rect[3] = cnts0[np.argmax(np.diff(cnts0,axis=-1))]

四角点的顺序：左上，右上，右下，左下
左上坐标和最小，右下坐标和最大
右上坐标差最小，左下坐标差最大（Y-X）

根据四角点坐标求矫正后图像的尺寸

(tl,tr,br,bl) = rect
    
width1 = np.sqrt(((tr[0]-tl[0])**2)+((tr[1]-tl[1])**2))
width2 = np.sqrt(((br[0]-bl[0])**2)+((br[1]-bl[1])**2))
width = max(int(width1),int(width2))
    
height1 = np.sqrt(((tr[0]-br[0])**2)+((tr[1]-br[1])**2))
height2 = np.sqrt(((tl[0]-bl[0])**2)+((tl[1]-bl[1])**2))
height = max(int(height1),int(height2))
    
dst = np.array([
    [0, 0],
    [width - 1, 0],
    [width - 1, height - 1],
    [0, height - 1]], dtype = "float32")

透视变换

M = cv2.getPerspectiveTransform(rect, dst)
warped = cv2.warpPerspective(image, M, (width, height))

云服务器 GPU云服务器 ocr 图像识别 ocr图像识别技术尚书ocr图像识别 ocr图像识别是什么

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/43391.html

【论文阅读】Beyond OCR + VQA: 将OCR融入TextVQA的执行流程中形成更鲁棒更准

摘要：模块基于预训练模型进行识别，识别出的结果与一起经过注意力机制得到加权的空间注意力，得到的结果与进行组合。五六结论将融入的前向处理流程，构建了一个鲁棒且准确的模型参考博客论文题目：Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA 论文链接：https://dl.acm.org/doi/a...

不知名网友 2021-11-26 11:11 评论0 收藏0

发表评论

登陆后可评论

0条评论

wenshi11019

男|高级讲师

我要关注我要私信

TA的文章

tensorflow2.4安装

阅读 3370·2023-04-25 22:47
【爬虫必备基础】⭐通宵爆肝两万字xpath教程⭐学不会找我！

阅读 3856·2021-10-11 10:59
VoLLcloud：香港三网CMI线路大带宽vps低至7折;100Mbps起步,月付低至$3.2

阅读 2352·2021-09-07 10:12
hostwinds：vps/云主机方案大全以及测评教程，测试IP，注册购买教程分享

阅读 4336·2021-08-11 11:15
前端开源项目周报1213

阅读 3476·2019-08-30 13:15
[开源] 分享自己用的 GitHub 分组管理工具.

阅读 1799·2019-08-30 13:00
[译]介绍一下渐进式 Web App(离线) - Part 1

阅读 1017·2019-08-29 14:02
浏览器兼容问题

阅读 1734·2019-08-26 13:57

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

OCR 图像矫正

相关文章

**【论文阅读】Beyond OCR + VQA: 将OCR融入TextVQA的执行流程中形成更鲁棒更准**

发表评论

0条评论

wenshi11019

男|高级讲师

TA的文章

tensorflow2.4安装

【爬虫必备基础】⭐通宵爆肝两万字xpath教程⭐学不会找我！

VoLLcloud：香港三网CMI线路大带宽vps低至7折;100Mbps起步,月付低至$3.2

hostwinds：vps/云主机方案大全以及测评教程，测试IP，注册购买教程分享

前端开源项目周报1213

[开源] 分享自己用的 GitHub 分组管理工具.

[译]介绍一下渐进式 Web App(离线) - Part 1

浏览器兼容问题

最新活动