资讯专栏INFORMATION COLUMN

抛弃黑箱,斯坦福大学与Facebook提出程序生成式图像推理模型

everfight / 3061人阅读

摘要:于是,这些黑箱模型经常在学习过程中受到数据偏差的影响,而导致图像推理的错误。程序生成器是由模型实现的。从左至右,每个问题都会向程序增加一个模块,在上图中,增加的模块用下划线表示。斯坦福大学表示将在最近将其开源。

深度学习著名学者 Yann LeCun 在社交网络上也分享点评了这项研究:「在为视觉推理和问答学习生成程序上的非常棒的新成果。」

论文链接:https://arxiv.org/abs/1705.03633

研究演示页面:http://cs.stanford.edu/people/jcjohns/iep/

GitHub 项目(Pytorch):https://github.com/facebookresearch/clevr-iep

在论文中,研究者称该方法成功摆脱了深度学习黑箱状态的缺陷,从而让模型可以摆脱数据集偏见的影响。在仅接受少量训练后,该模型即可学会产生可用的程序;同时,它比典型的深度学习系统更加透明:通过 LSTM,模型可为不同任务创建可解释的程序,这使我们能够得知系统尝试回答问题的「思路」。此外,该模型能够概括人类提出的问题——而不是仅仅通过搜索训练数据来完成这个任务。

论文:推理和执行视觉推理程序(Inferring and Executing Programs for Visual Reasoning)

摘要

现有的视觉推理方法通常使用黑箱架构将输入映射到输出,而没有对其中的推理过程建模。于是,这些黑箱模型经常在学习过程中受到数据偏差的影响,而导致图像推理的错误。受到网络模块的启发,本论文提出了一种视觉推理模型,其中包括一个程序生成器(program generator)——该组件构造要执行的推理过程的显式表示;以及一个执行引擎(execution engine)——执行生成的程序以产生答案。程序生成器和执行引擎均由神经网络实现,并都使用了反向传播和强化学习的组合进行训练。在 CLEVR 视觉推理基准上,我们展示了新模型具有显著强于其他方法的性能,并在进行设置后具有推广到多种任务上的潜力。

正如前文所述,该模型有两个组件构成:

程序生成器:读取问题文本,输出可执行解答问题的程序。程序生成器是由 LSTM sequence-to-sequence 模型实现的。

执行引擎:负责对图像执行生成出的程序以产生答案,由神经网络模块实现。

它们是互相独立训练的基础功能模块,这些模块根据预测的程序进行组合,为每个问题提供专属的神经网络架构。

图 1. 系统结构示意

图 2. 组合推理是无人机导航、自动驾驶、监视摄像头等应用中在复杂环境下所需的关键功能,然而目前的机器学习方式无法有效实现这样的能力。

图 3. 模型对预测答案最终特征图的分数之和进行了规范化和可视化。从左至右,每个问题都会向程序增加一个模块,在上图中,增加的模块用下划线表示。中间的可视化图说明了当执行问题回答的推理时模型所关注的热点区域。

图 5. 该方法和其他方式在 CLEVR-CoGenT 数据集上的回答问题准确度对比(数字越高越好)。

图 5 上表:研究者们用条件 A 训练了模型,随后在条件 A 和条件 B 下测试模型的性能。然后,研究者们将这些模型在条件 B 中用 3000 个图片和 30,000 个问题进行了微调,再在 A、B 条件中进行了测试。新模型在条件 A 中使用了 18,000 个程序,而在条件 B 的微调中没有使用任何程序。最后,他们研究了在条件 B 上进行微调时使用不同数量的数据的影响。

图 7. CLEVR-Humans 数据集中的问题示例,以及新模型预测的程序和答案。没有出现在 CLEVR 中的问题被加上了下划线。一些预测的程序与问题的语义完全匹配(绿色);一些程序与问题语义非常匹配(黄色);一些程序与问题无关(红色)。

CLEVR-Humans 数据集是有关 CLEVR 数据集中图片的问题组成的数据集,目前由包含 17,817 个问题的训练集,7,202 个问题的验证集和 7,145 个问题的测试集组成。斯坦福大学表示将在最近将其开源。

研究者们认为,该模型可以通过训练后的模组对新场景生成概括和问题,这些学习模块甚至可以推断自由形式的人类问题。虽然这些结果令人鼓舞,但仍然有许多问题不能使用该方法固定的模块组合来解决。例如,问题「具有独特形状物体的颜色是什么?」需要一个模块来识别相对特殊的形状,目前没有模块可以处理这样的任务。由于该模型通用的模块设计,将模块添加到模型中是很简单的事情,但是在没有监督的情况下自动识别和学习出新模块仍是理论上较好的形式。一个前进的道路是设计一个图灵完整的模块集,这样可以在不学习新模块的情况下表达所有程序。

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识

QQ群:81035754

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/4558.html

相关文章

  • 揭开深度学习黑箱:希伯来大学计算机科学教授提出「信息瓶颈」

    摘要:耶路撒冷希伯来大学的计算机与神经科学家提出了一项名为信息瓶颈的新理论,有望最终打开深度学习的黑箱,以及解释人脑的工作原理。 耶路撒冷希伯来大学的计算机与神经科学家 Naftali Tishby 提出了一项名为「信息瓶颈」(Information Bottleneck)的新理论,有望最终打开深度学习的黑箱,以及解释人脑的工作原理。这一想法是指神经网络就像把信息挤进瓶颈一样,只留下与一般概念更为...

    desdik 评论0 收藏0
  • 【LeCun台大演讲】AI最大缺陷是缺乏常识,无监督学习突破困境

    摘要:无监督式学习是突破困境的关键,采用无监督学习的对抗训练让拥有真正自我学习的能力。如何让拥有人类的常识认为要用无监督式学习。强化学习是蛋糕上不可或缺的樱桃,所需要资料量可能大约只有几个,监督式学习 6 月 29 日,台湾大学。卷积神经网络之父、FacebookAI 研究院院长 Yann LeCun 以「Deep Learning and the Path to AI」为题,对深度学习目前的发展...

    villainhr 评论0 收藏0
  • 从Pix2Code到CycleGAN:2017年深度学习重大研究进展全解读

    摘要:文本谷歌神经机器翻译去年,谷歌宣布上线的新模型,并详细介绍了所使用的网络架构循环神经网络。目前唇读的准确度已经超过了人类。在该技术的发展过程中,谷歌还给出了新的,它包含了大量的复杂案例。谷歌收集该数据集的目的是教神经网络画画。 1. 文本1.1 谷歌神经机器翻译去年,谷歌宣布上线 Google Translate 的新模型,并详细介绍了所使用的网络架构——循环神经网络(RNN)。关键结果:与...

    kuangcaibao 评论0 收藏0
  • Yann Lecun自监督学习指南(附114页Slides全文)

    摘要:近年来,深度学习在计算机感知自然语言处理和控制方面取得了重大进展。位列新泽西州的发明家名人堂,并获得年神经网络先锋奖年杰出研究奖年终身成就奖和来自墨西哥的名誉博士学位。 Yann Lecun是卷积网络模型的发明者,该模型被广泛地应用于模式识别应用中,因此他也被称为卷积网络之父,是公认的世界人工智能三巨头之一。 2018年11月08日,他来到加州大学圣巴巴拉分校,为在场师生作了一场关于自监督学...

    yiliang 评论0 收藏0
  • 最全知识图谱综述#2: 构建技术典型应用

    摘要:知识图谱开源库或简称是一个用于构建语义和关联数据应用程序的自由和开源的框架。垂直行业应用下面将以金融医疗电商行业为例,说明知识图谱在上述行业中的典型应用。 知识图谱构建的关键技术1 知识提取2 知识表示3 知识融合4 知识推理知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。在推理的过程中,往往需要关联规则的支持。由于实体、实体属性以及关系的多样性,人们很难穷举所有...

    duan199226 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<