摘要:深度学习使一系列计算机视觉任务的性能得到提升。最近的研究表明,在使用合成数据训练以及对真实数据进行测试方面已经取得了成功。图在我们的研究中所使用的图像形成和处理流程图。软件和数据集将在完成盲审后公布。
长期以来,深度学习使一系列计算机视觉任务的性能得到提升,而在本文中,密西根大学安娜堡分校(University of Michigan, Ann Arbor)的科学家们提出利用图像生成过程进行数据增强,对相机效果进行建模以提升在真实数据和合成数据上进行的深度视觉任务的性能表现,接下来,本文将介绍辐射是如何转换为8位像素值从而助力基于物理的数据增强的。
最近,我们的研究主要集中于生成合成图像和增强真实图像,以增加用于学习城市场景中视觉任务的训练数据的大小和可变性。这包括增加遮挡的发生或改变环境和天气的影响。然而,几乎没有人能够解决传感器领域中的变分建模问题。不幸的是,对于在人工注释的数据集上进行训练的视觉任务而言,改变传感器效应会降低其性能和结果的泛化能力。本文提出了一种高效、自动化的基于物理的增强管道,以改变真实的和合成图像上的传感器的效应——特别是色差、模糊、曝光、噪音和偏色等。具体来说,本文阐述了,使用所提出的管道增加训练数据集,能够提高在各种基准工具数据集上目标检测的鲁棒性和可泛化性。
深度学习使一系列计算机视觉任务的性能得到提升。随着一些基准数据集为训练深度神经网络(DNN)提供数以百万的手工标记图像,增加所标记的训练数据集的大小和变化为这些性能的提升带了很多贡献。理想情况下,我们可以编译一个大型的代表所有领域的综合训练集,并被标记以用于所有的视觉任务。不幸的是,收集和标记大量的训练数据是非常昂贵和耗时的。此外,我们不可能收集到一个捕获了现实世界中所存在的所有变化的单一真实数据集。
图1:在KITTI上对基线未增强数据(左)和我们提出的方法(右)进行目标检测的样本示例。蓝色方框表示正确的检测结果,红色方框表示基线法遗漏的、但通过我们所提出的基于传感器的图像增强方法能够检测到的结果。
最近的研究表明,在使用合成数据训练DNN以及对真实数据进行测试方面已经取得了成功。渲染引擎可以用来生成大量的合成数据,而这些数据看起来非常逼真。像素级标签可以自动生成,大大降低了为不同任务创建基本事实标签所需的成本和工作量。增强真实数据是增加数据集大小的另一种方式,无需额外的手工标签。合成渲染和增强管道都寻求在一个图像集中提高场景特征的可变性。特别是,最近的研究着重点在于建模环境的影响,比如场景照明、当日时间、场景背景、天气和遮挡,以增加训练集中这些因素的表征,从而在测试期间增加针对这些案例的鲁棒性。另一种方法是增加有用目标的出现,以在不同场景和空间配置中训练这些目标的过程中提供更多的样本。
图2:在我们的研究中所使用的图像形成和处理流程图。一个给定的图像会经历增强,这些增强就近似于相机在图像中所产生的相同像素级效果。
然而,尽管空间布局和环境因素各不相同,但在实现结果的鲁棒性和泛化能力方面仍然存在一定的挑战。为了进一步了解合成数据集与真实数据集之间的差别,甚至不同真实数据集之间的区别,我们需要思考DNN在学习视觉任务中的失效模式。目前,已被证实的一点是,导致各基准数据集性能和泛化能力下降的一个因素是传感器偏差。相机模型与环境中的照明之间的相互作用对图像中的像素级伪影(pixel-level artifacts)、失真和动态范围会产生很大影响。根据图1左侧的显示内容可知,包括模糊和过度曝光在内的传感器效应,降低了城市驾驶场景中目标检测网络的性能。尽管如此,在改善由自然环境中已学习视觉任务传感器导致的失效模式方面,仍然是一片空白。
图3:用于CITYSCAPES(左)和VKITTI(右)的单一传感器效应增强和我们的完整图像增强管道增强样本。
在本文中,我们研究了不同传感器模型的DNN性能对城市场景中自主驾驶计算机视觉任务的影响。我们提出,通过一种新的图像增强管道来对由传感器效应引起的信息缺失进行建模。我们的增强管道基于图像生成和处理过程中所产生的效应,这些效应会在学习框架过程中触发失效模式——色差、模糊、曝光、噪声和色偏校正。我们的目标是,通过在包含一组具有代表性实际传感器效应的数据上进行训练,从而在我们的学习框架中实现针对这些效应的鲁棒性。我们增强了真实数据和合成数据,以表明我们提出的方法提高了车辆数据集中目标检测的性能(图1)。软件和数据集将在完成盲审后公布。
图4:错车的定性分析,KITTI样本在左侧,Cityscapes样本在右侧
图5:Virtual KITTI样本在左侧,GTA样本在右侧
我们提出了一种新的基于传感器的图像增强通道,用于增强输入到DNN中的训练数据,以完成城市驾驶场景中的目标检测任务。我们的增强管道模拟了图像生成和后期处理流程中所出现的一系列物理真实的传感器效应。之所以选择这些效应,是因为它们会导致信息丢失或场景失真,从而降低了已学习视觉任务上的网络性能。通过在我们的已增强数据集上进行训练,我们无需进一步标记,即可有效地扩大数据集规模和传感器领域中的变化,进而提高目标检测网络的鲁棒性和泛化能力。我们在一系列基准车辆的数据集上实现了性能的显著提升,其中包括使用真实数据与合成数据进行训练。总而言之,我们的研究结果揭示了,对在合成数据上进行训练,在真实数据上进行测试的特定问题的传感器效应进行建模的重要性。
原文链接:https://arxiv.org/pdf/1803.07721.pdf
欢迎加入本站公开兴趣群商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/4745.html
摘要:目前目标检测领域的深度学习方法主要分为两类的目标检测算法的目标检测算法。原来多数的目标检测算法都是只采用深层特征做预测,低层的特征语义信息比较少,但是目标位置准确高层的特征语义信息比较丰富,但是目标位置比较粗略。 目前目标检测领域的深度学习方法主要分为两类:two stage的目标检测算法;one stage的目标检测算法。前者是先由算法生成一系列作为样本的候选框,再通过卷积神经网络进行样本...
摘要:最近,来自浙江大学悉尼大学等高校的研究人员,提出一种新颖的全局局部注意和语义保持的文本图像文本框架来解决这个问题,这种框架称为。目前,论文已被接收。乔婷婷,浙江大学计算机学院博士研究生,目前在悉尼大学陶大程教授研究小组工作。 GAN又开辟了新疆界。去年英伟达的StyleGAN在生成高质量和视觉逼真的图像,骗过了无数双眼睛,随后一大批假脸、假猫、假房源随之兴起,可见GAN的威力。StyleGA...
摘要:据阿里云官方消息报道,两次理论计算机最高奖哥德尔奖得主匈牙利裔美国计算机科学家马里奥塞格德入职阿里巴巴达摩院位于西雅图的阿里云量子实验室。据阿里云官方消息报道,两次理论计算机最高奖哥德尔奖得主、匈牙利裔美国计算机科学家马里奥·塞格德(Mario Szegedy)入职阿里巴巴达摩院位于西雅图的阿里云量子实验室(AQL)。马里奥·塞格德出生于盛产科学家的国度匈牙利,研究领域包括量子计算和计算复杂...
摘要:在本次竞赛中,南京信息工程大学和帝国理工学院的团队获得了目标检测的最优成绩,最优检测目标数量为平均较精确率为。最后在视频目标检测任务中,帝国理工大学和悉尼大学所组成的团队取得了较佳表现。 在本次 ImageNet 竞赛中,南京信息工程大学和帝国理工学院的团队 BDAT 获得了目标检测的最优成绩,最优检测目标数量为 85、平均较精确率为 0.732227。而在目标定位任务中Momenta和牛津...
阅读 877·2021-10-13 09:39
阅读 3530·2021-09-26 10:16
阅读 2860·2019-08-30 15:54
阅读 1037·2019-08-30 14:22
阅读 2885·2019-08-29 15:39
阅读 3252·2019-08-27 10:52
阅读 809·2019-08-26 13:59
阅读 1702·2019-08-26 12:20