MirrorGAN出世！浙大等提出文本-图像新框架，刷新COCO纪录

marser 发布于2019-04-25 18:33 / 3566人阅读

摘要：最近，来自浙江大学悉尼大学等高校的研究人员，提出一种新颖的全局局部注意和语义保持的文本图像文本框架来解决这个问题，这种框架称为。目前，论文已被接收。乔婷婷，浙江大学计算机学院博士研究生，目前在悉尼大学陶大程教授研究小组工作。

GAN又开辟了新疆界。

去年英伟达的StyleGAN在生成高质量和视觉逼真的图像，骗过了无数双眼睛，随后一大批假脸、假猫、假房源随之兴起，可见GAN的威力。

StyleGAN生成假脸

虽然GAN在图像方面已经取得了重大进展，但是保证文本描述和视觉内容之间的语义一致性上仍然是非常具有挑战性的。

最近，来自浙江大学、悉尼大学等高校的研究人员，提出一种新颖的全局-局部注意和语义保持的文本-图像-文本(text-to-image-to-text)框架来解决这个问题，这种框架称为MirrorGAN。

MirrorGAN有多强？

在目前较为主流的数据集COCO数据集和CUB鸟类数据集上，MirrorGAN都取得了较好成绩。

目前，论文已被CVPR2019接收。

MirrorGAN：解决文本和视觉之间语义一致性

文本生成图像（T2I）在许多应用领域具有巨大的潜力，已经成为自然语言处理和计算机视觉领域的一个活跃的研究领域。

与基本图像生成问题相反，T2I生成以文本描述为条件，而不是仅从噪声开始。利用GAN的强大功能，业界已经提出了不同的T2I方法来生成视觉上逼真的和文本相关的图像。这些方法都利用鉴别器来区分生成的图像和相应的文本对以及ground-truth图像和相应的文本对。

然而，由于文本和图像之间的区域差异，当仅依赖于这样的鉴别器时，对每对内的基础语义一致性进行建模是困难且低效的。

近年来，针对这一问题，人们利用注意机制来引导生成器在生成不同的图像区域时关注不同的单词。然而，由于文本和图像模式的多样性，仅使用单词级的注意并不能确保全局语义的一致性。如图1(b)所示：

图1 (a)镜像结构的说明，体现了通过重新描述学习文本到图像生成的思想；(b)-(c)前人的研究成果与本文提出的MirrorGAN分别生成的语义不一致和一致的图像/重新描述。

T2I生成可以看作是图像标题(或图像到文本生成，I2T)的逆问题，它生成给定图像的文本描述。考虑到处理每个任务都需要对这两个领域的底层语义进行建模和对齐，因此在统一的框架中对这两个任务进行建模以利用底层的双重规则是自然和合理的。

如图1 (a)和(c)所示，如果T2I生成的图像在语义上与给定的文本描述一致，则I2T对其重新描述应该与给定的文本描述具有完全相同的语义。换句话说，生成的图像应该像一面镜子，准确地反映底层文本语义。

基于这一观察结果，论文提出了一个新的文本-图像-文本的框架——MirrorGAN来改进T2I生成，它利用了通过重新描述学习T2I生成的思想。

解剖MirrorGAN三大核心模块

对于T2I这一任务来说，主要的目标有两个：

视觉真实性；

语义

且二者需要保持一致性。

MirrorGAN利用了“文本到图像的重新描述学习生成”的思想，主要由三个模块组成：

语义文本嵌入模块(STEM)；

级联图像生成的全局-局部协同关注模块(GLAM);

语义文本再生与对齐模块(STREAM)。

STEM生成单词级和句子级的嵌入；GLAM有一个级联的架构，用于从粗尺度到细尺度生成目标图像，利用局部词注意和全局句子注意，逐步增强生成图像的多样性和语义一致性；STREAM试图从生成的图像中重新生成文本描述，该图像在语义上与给定的文本描述保持一致。

图2 MirrorGAN原理图

如图2所示，MirrorGAN通过集成T2I和I2T来体现镜像结构。

它利用了通过重新描述来学习T2I生成的想法。生成图像后，MirrorGAN会重新生成其描述，该描述将其基础语义与给定的文本描述对齐。

以下是MirrorGAN三个模块组成：STEM，GLAM和STREAM。

STEM：语义文本嵌入模块

首先，引入语义文本嵌入模块，将给定的文本描述嵌入到局部词级特征和全局句级特征中。

如图2最左边所示(即上图)，使用一个递归神经网络(RNN)从给定的文本描述中提取语义嵌入T，包括一个嵌入w的单词和一个嵌入s的句子。

GLAM：级联图像生成的全局-局部协同关注模块

接下来，通过连续叠加三个图像生成网络，构造了一个多级级联发生器。

本文采用了《Attngan: Fine-grained text to image generation with attentional generative adversarial networks》中描述的基本结构，因为它在生成逼真的图像方面有很好的性能。

使用{F0，F1，…，Fm-1}来表示m个视觉特征变换器，并使用{G0，G1，…，Gm-1}来表示m个图像生成器。每个阶段中的视觉特征Fi和生成的图像Ii可以表示为：

STREAM：语义文本再生与对齐模块

如上所述，MirrorGAN包括语义文本再生和对齐模块（STREAM），以从生成的图像重新生成文本描述，其在语义上与给定的文本描述对齐。

具体来说，采用了广泛使用的基于编码器解码器的图像标题框架作为基本的STREAM架构。

图像编码器是在ImageNet上预先训练的卷积神经网络(CNN)，解码器是RNN。由末级生成器生成的图像Im-1输入CNN编码器和RNN解码器如下：

实验结果：COCO数据集上成绩较佳

那么，MirrorGAN的性能有多强呢？

首先来看一下MirrorGAN与其它较先进的T2I方法的比较，包括GAN-INT-CLS、GAWWN、StackGAN、StackGAN ++ 、PPGN和AttnGAN。

所采用的数据集是目前较为主流的数据集，分别是COCO数据集和CUB鸟类数据集：

CUB鸟类数据集包含8,855个训练图像和2,933个属于200个类别的测试图像，每个鸟类图像有10个文本描述；

OCO数据集包含82,783个训练图像和40,504个验证图像，每个图像有5个文本描述。

结果如表1所示：

表1 在CUB和COCO数据集上，MirrorGAN和其它先进方法的结果比较

表2展示了AttnGAN和MirrorGAN在CUB和COCO数据集上的R精度得分。

表2 在CUB和COCO数据集上，MirrorGAN和AttnGAN的R精度得分。

在所有实验比较中，MirrorGAN都表现出了更大的优势，这表明了本文提出的文本到图像到文本的框架和全局到本地的协作关注模块的优越性，因为MirrorGAN生成的高质量图像具有与输入文本描述一致的语义。

作者介绍

最后再介绍一下论文的四位作者。

Tingting Qiao（乔婷婷），浙江大学计算机学院博士研究生，目前在悉尼大学陶大程教授研究小组工作。

乔婷婷（图据LinkedIn）

Jing Zhang，博士，杭州电子科技大学讲师，悉尼大学访问学者。

Jing Zhang

许端清，浙江大学计算机与技术学院教授、博士生导师。

许端清

陶大程，悉尼大学工程及信息技术学院教授，优必选悉尼大学AI中心主任。

陶大程

目前，乔婷婷和Jing Zhang都在参与陶大程教授的工作。

值得注意的是，许端清教授曾承担国家社科基金重大项目（子课题）“敦煌遗书数据库关键技术研究及软件系统开发”，建立敦煌藏文基本信息库系统，乔婷婷也是当时的参与者之一。

两年之后的2017年，“石窟寺文物数字化保护国家文物局重点科研基地”在浙大揭牌，聚焦“石窟寺文物数字化保护“。这篇MirrorGAN的论文，在文本和图像的转换中加入了对语义的研究，使得这项任务的精度再次提高。

AI技术在文物数字化相关工作中，让古老的文字再添新生的活力，我们离历史更近，离文化更近。

论文地址：

https://arxiv.org/abs/1903.05854

声明：本文版权归原作者所有，文章收集于网络，为传播信息而发，如有侵权，请联系小编及时处理，谢谢！

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法，实际应用案例分享与讨论，分析工具，ETL工具，数据仓库，数据挖掘工具，报表系统等全方位知识

QQ群：81035754

GPU云服务器云服务器刷新纪录浙大网新机柜出租价格 ddos 攻击新纪录:每秒 1720 万次 http 请求! 下拉刷新框架

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/4873.html

「正经字幕」太无聊？「神经玩笑机」就可以生成逗你笑的趣味字幕

摘要：最后，我们显示了若干张图像中所生成的趣味字幕。图所提出的有趣字幕生成的体系结构。我们将所提出的方法称为神经玩笑机器，它是与预训练模型相结合的。用户对已发布的字幕的趣味性进行评估，并为字幕指定一至三颗星。可以毫不夸张地说，笑是一种特殊的高阶功能，且只有人类才拥有。那么，是什么引起人类的笑声表达呢？最近，日本东京电机大学（Tokyo Denki University）和日本国家先进工业科学和技...

lastSeries 2019-04-25 18:27 评论0 收藏0
Facebook何恺明等大神最新论文提出非局部神经网络

摘要：何恺明和两位大神最近提出非局部操作为解决视频处理中时空域的长距离依赖打开了新的方向。何恺明等人提出新的非局部通用网络结构，超越。残差连接是何恺明在他的年较佳论文中提出的。 Facebook何恺明和RGB两位大神最近提出非局部操作non-local operations为解决视频处理中时空域的长距离依赖打开了新的方向。文章采用图像去噪中常用的非局部平均的思想处理局部特征与全图特征点的关系。这种...

nevermind 2019-04-25 18:22 评论0 收藏0
ECCV 2018 | CornerNet：目标检测算法新思路

摘要：表示类别为，坐标是的预测热点图，表示相应位置的，论文提出变体表示检测目标的损失函数由于下采样，模型生成的热点图相比输入图像分辨率低。模型训练损失函数使同一目标的顶点进行分组，损失函数用于分离不同目标的顶点。本文由极市博客原创，作者陈泰红。 1.目标检测算法概述 CornerNet（https://arxiv.org/abs/1808.01244）是密歇根大学Hei Law等人在发表E...

awkj 2019-06-26 18:33 评论0 收藏0
[ResNet系] 001 ResNet

摘要：在本文中，快捷连接是为了实现恒等映射，它的输出与一组堆叠层的输出相加见图。实验表明见图，学习得到的残差函数通常都是很小的响应值，表明将恒等映射作为先决条件是合理的。 ResNet Deep Residual Learning for Image RecognitionKaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun Caffe实现：ht...

greatwhole 2019-06-26 18:15 评论0 收藏0
机器学习和深度学习引用量最高的20篇论文（2014-2017）

摘要：机器学习和深度学习的研究进展正深刻变革着人类的技术，本文列出了自年以来这两个领域发表的最重要被引用次数最多的篇科学论文，以飨读者。注意第篇论文去年才发表要了解机器学习和深度学习的进展，这些论文一定不能错过。机器学习和深度学习的研究进展正深刻变革着人类的技术，本文列出了自 2014 年以来这两个领域发表的最重要（被引用次数最多）的 20 篇科学论文，以飨读者。机器学习，尤其是其子领域深度学习...

jollywing 2019-04-25 18:11 评论0 收藏0