CVPR清华大学研究，高效视觉目标检测框架RON

chaosx110 发布于2019-04-25 18:15 / 1439人阅读

摘要：一项由清华大学计算机系智能技术与系统国家重点实验室清华国家信息实验室清华大学计算机科学与技术系英特尔中国研究院清华大学电子工程系的研究人员共同参与的关于高效视觉目标检测的研究已经被接收。

一项由清华大学计算机系智能技术与系统国家重点实验室、清华国家信息实验室、清华大学计算机科学与技术系、英特尔中国研究院、清华大学电子工程系的研究人员共同参与的关于高效视觉目标检测的研究已经被 CVPR 2017 接收。论文题目是 RON: Reverse Connection with Objectness Prior Networks for Object Detection。研究者包括孔涛、孙富春、Anbang Yao、刘华平、Ming Lu 和陈玉荣。

基于深度网络的目标对象检测可以分为 region-based 和 region-free 两种方法

目标对象检测领域正在取得重大进展，这主要得益于深度网络。当前较好的基于深度网络的目标检测框架可以分为两个主要方法流派：基于区域的方法（region-based）和不基于区域（region-free）的方法。

基于区域的方法将对象检测任务分为两个子问题：第一阶段，将一个专用的候选区域生成网络（region proposal generation network）嫁接到可以生成高质量候选框的深度卷积神经网络（CNN）上；然后，在第二阶段，一个区域性的子网（region-wise subnetwork）被设计来分类和改进这些候选框。使用非常深的 CNN ，Fast R-CNN 工作流程最近在主流对象检测基准上显示出了高精度。

region proposal 阶段可以拒绝大多数背景样本，因此对象检测的搜索空间大大减少。多阶段训练过程一般是开发用于区域候选生成和后检测的联合优化。在 Fast R-CNN 中，区域性子网反复评估成千上万个 region proposal，以给出检测分数。在 Fast R-CNN 工作流程下，Faster R-CNN 与检测网络共享全图像卷积特征，实现几乎零成本的 region proposal。最近，R-FCN 试图通过添加敏感位置的分数图，使 Faster R-CNN 的 unshared per RoI 计算可共享。然而，R-FCN 仍然需要区域候选网络产生的 region proposal。为了确保检测精度，所有方法都将图像的大小调整到足够大的尺寸。在训练和推理时间内，将图像投喂给深度网络时，会有资源和时间的消耗。例如，使用 Faster R-CNN 预测（将约 5GB GPU 内存用于 VGG-16 网络）每个图像通常需要 0.2 s。

另一个解决方案是不基于区域（region-free）的方法。这些方法将对象检测视为一次性（a single shot）问题，使用全卷积网络（FCN），从图像像素一直处理到边界框坐标。这些检测器的主要优点是效率高。从 YOLO 开始，SSD 试图用多层深度 CNN 处理物体检测问题。使用低分辨率输入，SSD 检测器可以获得较先进的检测结果。然而，这些方法的检测精度仍有改进的余地：（a）没有 region proposal，检测器必须在检测模块就要抑制所有的负候选框。这将增加对检测模块进行训练的难度；（b）YOLO 用最顶端的CNN 层检测物体，没有深入探索不同层的检测能力。 SSD 尝试通过添加前一层的结果来提高检测性能。然而，SSD 仍然受困于 small instance 的问题，主要是由于中间层的信息有限。这两个主要瓶颈影响了方法的检测准确性。

是否能够结合两种方法的优势，并消除其缺点？

这两个解决方案的成功，也引出了一个关键问题：是否可能开发一个能够巧妙地结合两种方法的优势并消除其主要缺点的良好框架？通过弥合基于区域的和不基于区域的方法之间的 gap，研究者对这一问题进行了回答。为了实现这一目标，研究者关注两个基本问题：（a）多尺度对象定位。各种尺度的物体可能出现在图像的任何位置，因此应考虑成千上万个具有不同位置/尺度/方位的区域。先前的研究表明，多尺度表征将显著改善各种尺度的物体检测。然而，这些方法总是在网络的一层检测到各种尺度的对象。利用研究者提出的反向连接，对象将在其相应的网络尺度上被检测到，这更容易优化；（b）负空间挖掘（Negative space mining）。对象和非对象样本之间的比例严重不平衡。因此，对象检测器应该具有有效的负挖掘策略。为了减少对象搜索空间，研究者在卷积特征图上创建了 objectness prior，并在训练阶段用检测器联合优化。

因此，研究者提出了 RON（Reverse connection with Objectness prior Networks）对象检测框架，将基于区域和不基于区域的方法的优点联系起来。

上图是 RON 对象检测总览。给定一张输入图像，网络首先计算骨干网络的特征。然后，（a）添加反向连接；（b）生成 objectness prior；（c）在相应的 CNN 尺度和位置上检测物体。

上图是生成自特定图像的 objectness prior。在此例中，沙发表现为（a）和（b），棕色的狗表现为（c），斑点狗表现为（d）。在 objectness prior 的引导下，网络生成了检测结果。

更多根据图像生成的 Objectness Prior 图

摘要

我们提出了 RON，一个有效、高效的通用对象检测框架。我们的想法是巧妙地结合基于区域（region-based，例如 Faster R-CNN）和不基于区域（region-free，例如 SSD）这两种方法的优点。在全卷积架构下，RON 主要关注两个基本问题：（a）多尺度对象定位和（b）负样本挖掘。为了解决（a），我们设计了反向连接，使网络能够检测多层 CNN 中的对象。为了处理（b），我们提出了 objectness prior，显著减少对象搜索空间。我们通过多任务损失函数联合优化了反向连接、objectness prior 和对象检测，因此RON 可以直接预测各种特征图所有位置的最终检测结果。

在PASCAL VOC 2007，PASCAL VOC 2012 和 MS COCO 基准测试的大量实验证明了 RON 的出色性能。具体来说，使用 VGG-16 和低分辨率 384×384 输入，网络在 PASCAL VOC 2007 上获得 81.3％ mAP，在 PASCAL VOC 2012 数据集上获得80.7％ mAP。数据集越大，难度越大，优势就越明显。在 MS COCO 数据集上的结果就证明了这一点。测试阶段使用 1.5G GPU 内存，网络速度为 15 FPS，比 Faster R-CNN 计数器快 3 倍。

论文地址：https://arxiv.org/abs/1707.01691

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法，实际应用案例分享与讨论，分析工具，ETL工具，数据仓库，数据挖掘工具，报表系统等全方位知识

QQ群：81035754

GPU云服务器云服务器检测到目标站点存在javascript框架库漏洞图像识别技术的研究目标人工智能研究的目标目标检测

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/4575.html

CVPR2016主旨演讲及焦点论文速览，深度学习垄断地位遭质疑

摘要：本届会议共收到论文篇，创下历史记录有效篇。会议接收论文篇接收率。大会共有位主旨演讲人。同样，本届较佳学生论文斯坦福大学的，也是使用深度学习做图像识别。深度学习选择深度学习选择不过，也有人对此表示了担心。指出，这并不是做学术研究的方法。 2016年的计算机视觉领域国际顶尖会议 Computer Vision and Pattern Recognition conference（CVPR2016...

Corwien 2019-04-25 18:02 评论0 收藏0
深度学习时代的目标检测算法

摘要：目前目标检测领域的深度学习方法主要分为两类的目标检测算法的目标检测算法。原来多数的目标检测算法都是只采用深层特征做预测，低层的特征语义信息比较少，但是目标位置准确高层的特征语义信息比较丰富，但是目标位置比较粗略。目前目标检测领域的深度学习方法主要分为两类：two stage的目标检测算法；one stage的目标检测算法。前者是先由算法生成一系列作为样本的候选框，再通过卷积神经网络进行样本...

wfc_666 2019-04-25 18:24 评论0 收藏0
最后一届ImageNet挑战赛落幕，「末代」皇冠多被国人包揽

摘要：在本次竞赛中，南京信息工程大学和帝国理工学院的团队获得了目标检测的最优成绩，最优检测目标数量为平均较精确率为。最后在视频目标检测任务中，帝国理工大学和悉尼大学所组成的团队取得了较佳表现。在本次 ImageNet 竞赛中，南京信息工程大学和帝国理工学院的团队 BDAT 获得了目标检测的最优成绩，最优检测目标数量为 85、平均较精确率为 0.732227。而在目标定位任务中Momenta和牛津...

jimhs 2019-04-25 18:17 评论0 收藏0
Facebook何恺明等大神最新论文提出非局部神经网络

摘要：何恺明和两位大神最近提出非局部操作为解决视频处理中时空域的长距离依赖打开了新的方向。何恺明等人提出新的非局部通用网络结构，超越。残差连接是何恺明在他的年较佳论文中提出的。 Facebook何恺明和RGB两位大神最近提出非局部操作non-local operations为解决视频处理中时空域的长距离依赖打开了新的方向。文章采用图像去噪中常用的非局部平均的思想处理局部特征与全图特征点的关系。这种...

nevermind 2019-04-25 18:22 评论0 收藏0
2018年深度学习的主要进步

摘要：在过去几年中，深度学习改变了整个人工智能的发展。在本文中，我将介绍年深度学习的一些主要进展，与年深度学习进展版本一样，我没有办法进行详尽的审查。最后的想法与去年的情况一样，年深度学习技术的使用持续增加。在过去几年中，深度学习改变了整个人工智能的发展。深度学习技术已经开始在医疗保健，金融，人力资源，零售，地震检测和自动驾驶汽车等领域的应用程序中出现。至于现有的成果表现也一直在稳步提高。在学术...

sushi 2019-04-25 18:32 评论0 收藏0