资讯专栏INFORMATION COLUMN

CVPR2016主旨演讲及焦点论文速览,深度学习垄断地位遭质疑

Corwien / 1978人阅读

摘要:本届会议共收到论文篇,创下历史记录有效篇。会议接收论文篇接收率。大会共有位主旨演讲人。同样,本届较佳学生论文斯坦福大学的,也是使用深度学习做图像识别。深度学习选择深度学习选择不过,也有人对此表示了担心。指出,这并不是做学术研究的方法。

2016年的计算机视觉领域国际顶尖会议 Computer Vision and Pattern Recognition conference(CVPR2016)昨天在美国拉斯维加斯召开,会议将持续到当地时间6月30日下午。

本届会议共收到论文 2145 篇,创下历史记录(有效 1865 篇)。会议接收论文 643 篇(接收率 29.9%)。其中,今年的大会还特别开设 Spotlight Session,让 123 篇论文的讲者有 4 分钟的时间口头介绍其研究核心。

大会共有 3 位主旨演讲人。第一天是 Amnon Shashua,著名计算机视觉算法公司 Mobileye 的联合创始人。第二天,也就是今天的主旨演讲,由哈佛大学心理系教授 Elizabeth Spelke 进行,主题是科学研究中的男女性别平等。明天的主旨演讲者是牛津大学人类未来研究所的教授 Nick Bostrom。这样看,不仅仅是计算机视觉和模式识别,主办方连科研性别平等和人工智能发展趋势都考虑了进去。

【点击查看大图】CVPR2016 活动日程表。短短三天,承载这么多的内容。

CVPR2016 活动日程表。短短三天,承载这么多的内容。

深度学习一统计算机视觉江湖

 

根据 Twiiter 上的消息,主要展台都各有看点。例如 Twitter Cortex,刚刚收了 Magic Pony,展台前聚集了很多人。

Twitter Cortex 展台前人群聚集。来源:Twitter

Twitter Cortex 展台前人群聚集。来源:Twitter

MIT的研究者在会议上发布了给视频配音的研究。

谷歌也在 Google Research Blog 刊登出了 CVPR 2016 相关内容,论文、口头报告、研讨会,加起来总共十几项。

谷歌也在 Google Research Blog 刊登出了 CVPR 2016 相关内容,论文、口头报告、研讨会,加起来总共十几项。

TechCrunch 具体报道了谷歌与几所高校合作的项目。

其中,谷歌与斯坦福大学合作,教计算机学会分辨场景中的关键信息。这项研究的目的是在同时有多人场景的视频中跟踪关键目标。论文以篮球比赛视频为例,计算机需要识别出场上最应该注意的球员。

从画面中识别出关键目标才能提供更大信息量

从画面中识别出关键目标才能提供更大信息量

研究人员利用递归神经网络设计了一个计算机视觉系统,下图就是计算机查看每一帧画面时的“注意力模式”(attention mask)。图中红框标注场上球员,五角星代表篮球,持球运动员则用蓝框表示。

三分球、成功抢到篮板球和投篮失败的场景

三分球、成功抢到篮板球和投篮失败的场景

经过训练后,这个使用递归神经网络的系统不仅能够识别出当前画面中的关键目标,也可以预测接下来即将成为关键目标的是什么,这样画面与画面之间的动作变化则将前后的关键部分连接起来。

谷歌与爱丁堡大学合作的一项研究,图像识别系统的任务是学会找出每一帧画面里,老虎的四条腿是如何运动的,并且预测接下来它将如何迈步。以往的研究是将画面中活动的物体当做一个整体,这项研究则分别跟踪老虎的四条腿,并分别预测接下来每条腿的运动轨迹。

谷歌与 UCLA、牛津大学以及约翰霍普金斯大学合作的研究,训练图像识别系统理解照片中不同部分的互动关系,生成更较精确的描述。

谷歌与 UCLA、牛津大学以及约翰霍普金斯大学合作的研究,训练图像识别系统理解照片中不同部分的互动关系,生成更较精确的描述。

当然,上面介绍的这三篇论文都使用了深度学习。实际上,正如 TechCrunch 报道最后所说,放眼望去,深度学习几乎成了如今计算机视觉研究的标配。

当然,上面介绍的这三篇论文都使用了深度学习。实际上,正如 TechCrunch 报道最后所说,放眼望去,深度学习几乎成了如今计算机视觉研究的标配。

同样,本届 CVPR 2016较佳学生论文、斯坦福大学的 “Structural-RNN: Deep Learning on Spatio-Temporal Graphs”,也是使用深度学习做图像识别。

深度学习 选择

深度学习 ≠ 选择

 

不过,也有人对此表示了担心。

 

法国 Inria 研究所的研究员 Nikos Paragios 在 LinkedIn 撰文指出,直到 2010年,计算机视觉领域相关会议所涉及的专题,无论是从内容上还是从方法上都相对完善,包括早期视觉、分割和组合、运动检测和跟踪、视觉识别以及三维视觉,而且几乎所有研究都用到了统计、几何和优化的方法。参加这样的一次会议,能让人对计算机视觉技术的现状、问题及发展获得全面的了解。

 

但如今,绝大部分研究都使用了深度学习。当然,Paragios 也表示,每个时期都自有其主导的潮流:20 世纪 80 年代是立体视觉(stereo)、20 世纪 90 年代是连续方法和分割组合,世纪之交离散方法上位,人们也开始再次关注视觉识别和描述。与此同时,机器学习作为一股后浪随着前浪袭来,但尽管如此,当时的计算机视觉研究还算多样化,任选一个子领域就能看见新的想法。

 

但现在情况则大不相同。各个研究都专注于使用深度学习的方法解决计算机视觉问题,会议接收的论文里,发表的论文中有 80% 到 90%,口头报告更是接近 100% 都来自深度学习领域。Paragios 在文章中写道,虽然这样做没有问题,这些论文也都体现了实力,但他想知道这些研究“增加的”科学价值在哪里。

在 Paragios 看来,除了一小部分人还在坚持做基础研究,探索深度学习方法的理论概念,大部分人似乎都跑去搭建更复杂、更庞大的框架——而且从所提交的论文看,基本上所有描述的框架都是不可扩展的。也就是说,尽管表面上看去成果丰硕,但深究起来这些论文背后几乎没有什么理论论证,因此也谈不上为某个基准增添了性能。Paragios 指出,这并不是做学术研究的方法。众人的注意力都放在更快的速度更高的效率上,但追求的目标还是与以往一样,并不远大,而且众人眼中实现目标的方法也仅剩一条了。

 

不仅会议如此,科研基金也如此,而这就直接导致了计算机视觉研究“理论深度”变浅,研究方向单一。Paragios 接着写道,如果这只是因为近年来计算力和大数据崛起推动所致,那么这股热潮自会过去,计算机视觉也会遵循计算机图形的发展轨迹,从活动和学术研究的量上说,逐渐成为一门边缘学科。

 

如果不是的话,Paragios 表示——那么问题来了:计算机视觉的下一步发展将是什么?“你怎么让那些刚从学校出来,很有可能连统计学习、模式识别、欧氏几何、连续和离散优化都没听说过的的博士生提出新的想法?”

 

虽然事情不至于这么极端,但照这样发展下去,Paragios 写道,结果就只有两条:要么是大家走向共和,实现 David Marr 的假说——单一计算框架能解决所有视觉感知问题,当然这也是一项成就;但万一要是沿着深度学习走下去,最终却无法解决各种各样的计算机视觉问题……

Paragios 称自己是深度学习怀疑论者、接受者、倡导者中的后两种,但对前景还很迷茫。不过,他主张的研究多样化,的确值得深思。

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识

QQ群:81035754

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/4352.html

相关文章

  • NLP 顶级科学家 Manning:深度学习将主导 SIGIR(信息检索)

    摘要:于月日至日在意大利比萨举行,主会于日开始。自然语言理解领域的较高级科学家受邀在发表主旨演讲。深度学习的方法在这两方面都能起到作用。下一个突破,将是信息检索。深度学习在崛起,在衰退的主席在卸任的告别信中这样写到我们的大会正在衰退。 SIGIR全称ACM SIGIR ,是国际计算机协会信息检索大会的缩写,这是一个展示信息检索领域中各种新技术和新成果的重要国际论坛。SIGIR 2016于 7月17...

    Reducto 评论0 收藏0
  • 128篇论文,21大领域,深度学习最值得看的资源全在这了

    摘要:对于大多数想上手深度学习的小伙伴来说,我应当从那篇论文开始读起这是一个亘古不变的话题。接下来的论文将带你深入理解深度学习方法深度学习在前沿领域的不同应用。 对于大多数想上手深度学习的小伙伴来说,我应当从那篇论文开始读起?这是一个亘古不变的话题。而对那些已经入门的同学来说,了解一下不同方向的论文,也是不时之需。有没有一份完整的深度学习论文导引,让所有人都可以在里面找到想要的内容呢?有!今天就给...

    tracymac7 评论0 收藏0
  • 一个时代的终结:ImageNet 竞赛 2017 是最后一届

    摘要:年月日,将标志着一个时代的终结。数据集最初由斯坦福大学李飞飞等人在的一篇论文中推出,并被用于替代数据集后者在数据规模和多样性上都不如和数据集在标准化上不如。从年一个专注于图像分类的数据集,也是李飞飞开创的。 2017 年 7 月 26 日,将标志着一个时代的终结。那一天,与计算机视觉顶会 CVPR 2017 同期举行的 Workshop——超越 ILSVRC(Beyond ImageNet ...

    OnlyMyRailgun 评论0 收藏0
  • Google GAN之父 ICCV2017演讲:解读生成对抗网络的原理与应用

    摘要:但年在机器学习的较高级大会上,苹果团队的负责人宣布,公司已经允许自己的研发人员对外公布论文成果。苹果第一篇论文一经投放,便在年月日,斩获较佳论文。这项技术由的和开发,使用了生成对抗网络的机器学习方法。 GANs「对抗生成网络之父」Ian Goodfellow 在 ICCV 2017 上的 tutorial 演讲是聊他的代表作生成对抗网络(GAN/Generative Adversarial ...

    plokmju88 评论0 收藏0
  • DeepMind 为何总能完爆人类?世界第一深度学习实验室内部探秘

    摘要:第二次则是今年初,论文被深度学习盛会拒绝。表示遗憾乃至愤怒的人不在少数。他认为,使从其他学术实验室中脱颖而出的,是它的跨领域文化。腾讯也在筹建人工智能实验室,近期消息就会正式公布。 牛津大学和 DeepMind 的研究人员合作,开发出一款能够阅读唇语的系统,这个名叫 Watch, Attend and Spell(WAS)的软件在实际表现中远远超越了人类专家的水平。研究人员使用计算机视觉和机...

    yy736044583 评论0 收藏0

发表评论

0条评论

Corwien

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<