资讯专栏INFORMATION COLUMN

助力中文文字识别突破,美团公开首个真实场景招牌图像数据集

fsmStudy / 1410人阅读

摘要:美团作为全球最大的本地生活服务平台,拥有由遍布全国的市场人员所拍摄的众多门脸招牌图片数据。中文在实际应用场景的表现并不乐观。美团今年联合国内外知名科研机构和学者,提出了中文门脸招牌文字识别比赛。是难得的用于研发和评估中文识别技术的数据集。

美团作为全球最大的本地生活服务平台,拥有由遍布全国的市场人员所拍摄的众多门脸招牌图片数据。每张图片都是由全国的不同个人,采用不同设备,在不同地点,不同时间和不同环境下所拍摄的不同目标,是难得的可以公正评价算法鲁棒性和识别效果的图片数据,挑战也非常大。

近年来业界围绕着文字检测和文字识别提出了许多有效的算法和技术方案。由于之前公开的数据集普遍以英文为主,因此所提出的技术方案对中文特有问题关注不足。表现在以中文为主的实际应用场景中,这些技术方案的结果与应用预期差距较大。以美团掌握的某典型中文图片数据为例,在6000张图的图片数据集上(已去除文字无法辨识的图片),测试了国内最知名的三个AI开放平台,按字段统计识别率分别是94%,91% 和 86%,经过努力我们也只达到 98%。中文OCR在实际应用场景的表现并不乐观。

在此次 ICDAR2019上,我们挑选出很能代表中文特点的餐饮商家的门脸招牌图片来组织竞赛,这些招牌上的文字存在中文特有的设计和排版,同时也兼有自然场景文字识别中普遍存在的拍照角度、光照变化等干扰因素。我们希望通过竞赛引起同行们对中文识别的关注,群策群力解决中文识别的实际问题。

会议与大赛介绍

国际文档分析与识别国际会议 (International Conference on Document Analysis and Recognition,ICDAR)是由国际模式识别学会(IAPR)组织的专业会议之一,专注于文本领域的识别与应用。ICDAR大会每两年举办一次,目前已发展成文字识别领域的旗舰学术会议。为了提高自然场景的文本检测和识别水平,国际文档分析和识别会议(ICDAR)于2003年设立了鲁棒文本阅读竞赛(“Robust Reading Competitions”)。至今已有来自89个国家的3500多支队伍参与。

ICDAR 2019将于今年9月20-25日在澳大利亚悉尼举办。 美团今年联合国内外知名科研机构和学者,提出了"中文门脸招牌文字识别"比赛(ICDAR 2019 Robust Reading Challenge on Reading Chinese Text on Signboards)。

组织者

王栋、张睿、刘曦、周永生,美团

白翔、廖明辉、杨明锟,华中科技大学

Baoguang Shi, Microsoft (Redmond,USA)

Shijian Lu, Nanyang Technological University (Singapore)

Dimosthenis Karatzas,Computer Vision Centre,UAB(Spain)

C. V. Jawahar,IIIT Hyderabad(India)

数据集介绍

美团本次公开的数据,由遍布全国的市场人员所拍摄的众多门脸招牌图片组成,共25000张。每张图片是由完全独立的不同个人,采用不同设备,在不同地点,不同时间和不同环境下所拍摄的不同商家。该数据集以中文文字为主,也包含一定数量的英文和数字,英文和数字的占比介于 10% 和 30% 之间。标注内容比较完备,每张图片均标注了单个字符的位置和文本,以及各字符串的位置和文本。是难得的用于研发和评估中文识别技术的数据集。其中,20000张图片用于训练,2000张用于验证,3000张用于测试。

比赛内容

本次门脸招牌识别,共定义了 4 个任务,分别如下:

TASK 1:招牌端到端文字识别

TASK 2:招牌文字行定位

TASK 3:招牌区域内单字识别

TASK 4:招牌区域内字符串识别

奖励方式

颁发奖状:按照最终成绩进行排名,以从高至低顺序依次选取前三名,颁发奖状。
比赛奖金:从高至低顺序选取前三名参赛方为学校及科研院所等非盈利机构。
奖金详细如下:

重要日期

2019年3月1日:报名通道开放

2019年3月18日:训练数据集开放

2019年4月15日:测试数据集分批开放

2019年4月16日:提交通道开放

2019年4月30日:提交截止日期

2019年5月10日:比赛最终报告提交

2019年9月20日:ICDAR 2019 大会召开

参赛报名

扫描下方二维码,直接进入报名链接报名。

报名链接地址: http://rrc.cvc.uab.es/?ch=12
报名链接二维码:

参赛答疑与交流

参赛答疑邮箱:mtdptech@meituan.com(邮件标题请注明 “ICDAR2019”)
加入参赛交流微信群

步骤1:微信添加 “MTDPtech02” 为好友(昵称:美美),或扫描下方二维码直接添加:

步骤2:回复美美 “ICDAR2019”,则会自动将您加入ICDAR2019-ReCTS技术交流群

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/17937.html

相关文章

  • AI Challenger开赛,千万量级数据开放,AI高手将上演巅峰对决

    摘要:月日,各项竞赛的排名将决定最终的成绩排名。选手通过训练模型,对虚拟股票走势进行预测。冠军将获得万元人民币的奖励。 showImg(https://segmentfault.com/img/bVUzA7?w=477&h=317); 2017年9月4日,AI challenger全球AI挑战赛正式开赛,来自世界各地的AI高手,将展开为期三个多月的比拼,获胜团队将分享总额超过200万人民币的...

    Ali_ 评论0 收藏0
  • 深度学习在美团点评的应用

    摘要:基于深度学习的语义匹配语义匹配技术,在信息检索搜索引擎中有着重要的地位,在结果召回精准排序等环节发挥着重要作用。在美团点评业务中主要起着两方面作用。 写在前面美团点评这两年在深度学习方面进行了一些探索,其中在自然语言处理领域,我们将深度学习技术应用于文本分析、语义匹配、搜索引擎的排序模型等;在计算机视觉领域,我们将其应用于文字识别、目标检测、图像分类、图像质量排序等。下面我们就以语义匹配、图...

    DirtyMind 评论0 收藏0

发表评论

0条评论

fsmStudy

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<