Google图片数据集发布最新 V3 版，涵盖600个对象类的标记边框

archieyang 发布于2019-04-25 18:22 / 2126人阅读

摘要：日前，谷歌发布开发图片数据集的版，比起今年月份发布的版，这一版本的边框数和图像层级标签数都大大增加。大部分的人工验证都已经在谷歌内部手工完成了，另外一小部分是通过在上进行众包验证来完成的。

日前，谷歌发布 Open Images Dataset （开发图片数据集）的 V3 版，比起今年7月份发布的 V2 版，这一版本的边框（bounding box）数和图像层级标签（image-level label）数都大大增加。

图： Open Images Dataset 中的标注图像

Open Images Dataset 包含900万张图片 URL，里面的图片都已经被标注，带有标签和边框，横跨成千上万个类。大家现在可以到 https://github.com/cvdfoundation/open-images-dataset 进行下载。

该数据集包括一个训练集(9,011,219张图像)、一个验证集(41,620张图像)和一个测试集(125,436张图像)。在 V2 版本中， V1 版本的验证集被分割成验证集和测试集，这是为了更易于评估。图像的标签和边框描述如下：

图像层级标签

下表是不同数据集中图像层级标签的概况，可以通过类似于 Google Cloud Vision API 的计算机视觉模型自动生成所有图片的图像层级标签。

验证集和测试集中的所有图像，以及训练集中的一部分图像都带有经过人工验证的图像层级标签。大部分的人工验证都已经在谷歌内部手工完成了，另外一小部分是通过在Image Labeler（Crowdsource app, g.co/imagelabeler）上进行众包验证来完成的。这种人工验证虽然可以消除掉错误信息，但却不能发现漏报情况，所以图像中可能会缺失某些标签。产生样本的模型不只是上面提到的自动生成标签的模型，还覆盖其他很多计算机视觉模型，所以类的数量大大增加了。

在数据集中，共有19,995个带有图像层级标签的不同的类，其中19,693个类中至少有一个经过人类验证的标签，7870个类中带有机器生成的标签。

边框

下表是在所有数据集中边框标记的概况，其中包括600个对象类。这个数量远远大于在 ILSVRC 和 COCO 挑战赛中涵盖的类，另外还增加了诸如 fedora 帽和雪人等新的对象。

Google 为验证集和测试集中的所有对象实例提供完整的边界框注释，这些都是在公司内部通过手工标记的。此外，他们还尽可能地尝试在语义层次（semantic hierarchy）上将边框标记得足够具体。

例如，汽车有两辆，一辆是儿童豪华轿车，一辆是货车。豪华轿车（limousine）和货车（van）被标记为limousine和van，而所有其他类型的汽车（car）被标记为汽车（car）。

此外，注解者还为每个边框标记了一组属性，例如指示对象是否被遮挡。验证集和测试集中的每个图像平均大约有5个边框。

Data Formats数据格式

数据原始码包含如下文件：

images.csv

在训练集、验证集和测试集中的每个子集中都会有这样的文件。这里面包含图片URL、OpenImage ID、标题、作者和许可信息:

ImageID,Subset,OriginalURL,OriginalLandingURL,License,AuthorProfileURL,Author,Title,

OriginalSize,OriginalMD5,Thumbnail300KURL

...

000060e3121c7305,train,https://c1.staticflickr.com/5/4129/5215831864_46f356962f_o.jpg,

https://www.flickr.com/photos/brokentaco/5215831864,

https://creativecommons.org/licenses/by/2.0/,

"https://www.flickr.com/people/brokentaco/","David","28 Nov 2010 Our new house."

211079,0Sad+xMj2ttXM1U8meEJ0A==,https://c1.staticflickr.com/5/4129/5215831864_ee4e8c6535_z.jpg

...

每个图片中都有一个惟一的64位指定 ID，在 CSV 文件中，它们显示成十六进制整数（用零填充），例如000060e3121c7305。

annotations-machine.csv

这是通过机器生成的图像层级标签（每个训练集、验证集和测试集中都有）。

ImageID,Source,LabelName,Confidence

000002b66c9c498e,machine,/m/05_4_,0.7

000002b66c9c498e,machine,/m/0krfg,0.7

000002b66c9c498e,machine,/m/01kcnl,0.5

000002b97e5471a0,machine,/m/05_5t0l,0.9

000002b97e5471a0,machine,/m/0cgh4,0.8

000002b97e5471a0,machine,/m/0dx1j,0.8

000002b97e5471a0,machine,/m/039jbq,0.8

000002b97e5471a0,machine,/m/03nfmq,0.8

000002b97e5471a0,machine,/m/03jm5,0.7

...

这些是通过与 Google Cloud Vision API 类似的计算机视觉模型生成的。

annotations-human.csv

这是通过人工验证的图像层级标签（每个训练集、验证集和测试集中都有）。

ImageID,Source,LabelName,Confidence

000026e7ee790996,verification,/m/04hgtk,0

000026e7ee790996,verification,/m/07j7r,1

000026e7ee790996,crowdsource-verification,/m/01bqvp,1

000026e7ee790996,crowdsource-verification,/m/0csby,1

000026e7ee790996,verification,/m/01_m7,0

000026e7ee790996,verification,/m/01cbzq,1

000026e7ee790996,verification,/m/01czv3,0

000026e7ee790996,verification,/m/01v4jb,0

000026e7ee790996,verification,/m/03d1rd,0

...

这些源代码指示了标签是如何生成的：

"verification"是人工验证的图像层级标签。

"crowdsource-verification"是通过Crowdsource（众包） APP进行人工验证的标签。

annotations-human-bbox.csv

这是有边框坐标的人工标签（每个训练集、验证集和测试集中都有）

训练集标签和边框坐标如下所示：

ImageID,Source,LabelName,Confidence,XMin,XMax,YMin,YMax

000002b66c9c498e,activemil,/m/0284d,1,0.560250,0.951487,0.696401,1.000000

000002b66c9c498e,activemil,/m/052lwg6,1,0.543036,0.907668,0.699531,0.995305

000002b66c9c498e,activemil,/m/0fszt,1,0.510172,0.979656,0.641628,0.987480

000002b66c9c498e,verification,/m/01mzpv,1,0.018750,0.098438,0.767187,0.892187

000002b66c9c498e,xclick,/m/01g317,1,0.012520,0.195618,0.148670,0.588419

000002b66c9c498e,xclick,/m/0284d,1,0.528951,0.924883,0.676056,0.965571

000002b66c9c498e,xclick,/m/02wbm,1,0.530516,0.923318,0.668232,0.976526

000002b66c9c498e,xclick,/m/052lwg6,1,0.516432,0.928012,0.651017,0.985915

000002b66c9c498e,xclick,/m/0fszt,1,0.525822,0.920188,0.669797,0.971831

...

验证集和测试集的额外属性也给出来了：

ImageID,Source,LabelName,Confidence,XMin,XMax,YMin,YMax,IsOccluded,IsTruncated,IsGroupOf,IsDepiction,IsInside

000026e7ee790996,freeform,/m/07j7r,1,0.071905,0.145346,0.206591,0.391306,0,1,1,0,0

000026e7ee790996,freeform,/m/07j7r,1,0.439756,0.572466,0.264153,0.435122,0,1,1,0,0

000026e7ee790996,freeform,/m/07j7r,1,0.668455,1.000000,0.000000,0.552825,0,1,1,0,0

000062a39995e348,freeform,/m/015p6,1,0.205719,0.849912,0.154144,1.000000,0,0,0,0,0

000062a39995e348,freeform,/m/05s2s,1,0.137133,0.377634,0.000000,0.884185,1,1,0,0,0

0000c64e1253d68f,freeform,/m/07yv9,1,0.000000,0.973850,0.000000,0.043342,0,1,1,0,0

0000c64e1253d68f,freeform,/m/0k4j,1,0.000000,0.513534,0.321356,0.689661,0,1,0,0,0

0000c64e1253d68f,freeform,/m/0k4j,1,0.016515,0.268228,0.299368,0.462906,1,0,0,0,0

0000c64e1253d68f,freeform,/m/0k4j,1,0.481498,0.904376,0.232029,0.489017,1,0,0,0,0

class-descriptions.csv

通过查阅class-descriptions.csv，可以将标签的MID转换成相关短描述

...

/m/025dyy,Box

/m/025f_6,Dussehra

/m/025fh,Professor x

/m/025fnn,Savannah Sparrow

/m/025fsf,Stapler

/m/025gg7,Jaguar x-type

/m/02_5h,Figure skating

/m/025_h00,Solid-state drive

/m/025_h88,White tailed prairie dog

/m/025_hbp,Mercury monterey

/m/025h_m,Yellow rumped Warbler

/m/025khl,Spätzle

...

需要注意逗号、引号等，该文件格式遵循标准的CSV格式，示例如下：

/m/02wvth,"Fiat 500 ""topolino"""

/m/03gtp5,Lamb"s quarters

/m/03hgsf0,"Lemon, lime and bitters"

classes.txt

这是19,995个图像层级类的清单

/m/0100nhbf

/m/0104x9kv

/m/0105jzwx

/m/0105ld7g

/m/0105lxy5

/m/0105n86x

/m/0105ts35

/m/0108_09c

/m/01_097

/m/010dmf

...

classes-trainable.txt

这是5000个可训练的图像层级类的清单

classes-bbox.txt

这是600个边框层级类的清单

classes-bbox-trainable.txt

这是545个可训练边框层级类的清单

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法，实际应用案例分享与讨论，分析工具，ETL工具，数据仓库，数据挖掘工具，报表系统等全方位知识

QQ群：81035754

云服务器 GPU云服务器 cowc数据集标记类的对象对象集图片边框

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/4690.html

发表评论

登陆后可评论

0条评论

archieyang

男|高级讲师

我要关注我要私信

TA的文章

常见的编译器

阅读 2966·2021-10-14 09:42
宝塔面板安装pdftoolbox – 一个好用的PDF在线工具箱

阅读 1315·2021-09-24 10:32
C语言深层理解：函数中栈帧的创建与销毁

阅读 3034·2021-09-23 11:21
阿里云：云上年中钜惠 - 轻量应用服务器60元/年 ECS云服务器72元/年

阅读 2901·2021-08-27 13:10
CSS动画优雅降级的简单总结

阅读 3387·2019-08-29 18:41
flask基础之一

阅读 2251·2019-08-29 15:16
这些国外前端周刊值得你收藏一下

阅读 1283·2019-08-29 13:17
多图片展开收缩实例

阅读 950·2019-08-29 11:22

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

Google图片数据集发布最新 V3 版，涵盖600个对象类的标记边框

相关文章

发表评论

0条评论

archieyang

男|高级讲师

TA的文章

常见的编译器

宝塔面板安装pdftoolbox – 一个好用的PDF在线工具箱

C语言深层理解：函数中栈帧的创建与销毁

阿里云：云上年中钜惠 - 轻量应用服务器60元/年 ECS云服务器72元/年

CSS动画优雅降级的简单总结

flask基础之一

这些国外前端周刊值得你收藏一下

多图片展开收缩实例

最新活动