GAN模式崩溃的理论解释

hiYoHoo 发布于2019-04-25 18:31 / 940人阅读

摘要：我们将这些现象笼统称为广义的模式崩溃问题。这给出了模式崩溃的直接解释。而传统深度神经网络只能逼近连续映射，这一矛盾造成了模式崩溃。

春节前夕，北美遭遇极端天气，在酷寒中笔者来到哈佛大学探望丘成桐先生。新春佳节，本是普天同庆的日子，但对于孤悬海外的游子而言，却是更为凄凉难耐。远离父母亲朋，远离故国家园，自然环境寒风凛冽，飞雪漫天，社会环境疏离淡漠，冷清寂寥。在波士顿见到导师和朋友，倍感欣慰。笔者曾经辅导过的Kylie刚刚从哈佛毕业。哈佛本科生的主流一般选择进入华尔街的金融公司，Kylie却特立独行地选择了教育。笔者辅导过的Simon刚刚被哈佛录取，矢志投身数学。在查尔斯河畔的LegalSeafood, Kylie给了Simon很多在哈佛求学的建议。看到弟子们的茁壮成长，笔者不禁感慨万千：时光荏苒，昭华流逝，人生苦短，择英才而教之，生命才会更有意义！

笔者和哈佛大学统计系的刘军教授交流，刘教授告诉笔者最近有麻省理工的学者来哈佛寻求教职，求职学术演讲的主题就是最优传输理论在深度学习中的应用。由此可以，深度学习的最优传输理论解释逐渐被广泛接受。在哈佛大学的数学科学与应用中心（Harvard CMSA），丘先生和笔者进一步探讨深度学习中对抗生成网络和蒙日-安培方程理论的关系。

遥想二十多年前，笔者刚刚投到丘先生门下的时候，丘先生教给笔者的第一个几何分析的利器就是蒙日-安培方程理论（Monge-Ampere Equation）。那时，笔者在麻省理工大学学习机器视觉课程，需要求解闵科夫斯基（Minkowski）问题，即利用高斯曲率反求曲面形状。丘先生指导笔者用蒙日-安培方程来解决这一问题。当时无论如何也无法想象二十多年后，这一理论会在深度学习领域发挥重要作用。

近些年来，深度学习的革命几乎席卷了整个计算机科学领域，尤其是这两年来对抗生成网络模型（GAN）石破天惊、一骑绝尘，而蒙日-安培理论恰好可以为GAN提供强有力的理论支持。多少年来，丘先生一直强调基础理论的重要性，他曾经多次说道：“人类历史上技术的本质发展都是来自基础理论的重大突破，基础理论突破后往往经过数十年才会被工程技术领域所领会吸收。因此，对于科学的发展应该持有长远的观点，不能急功近利。”在笔者数十年的学术生涯中，多次见证了丘先生所预言的情形发生，例如陈类之于拓扑绝缘体，证明庞加莱猜测的黎奇曲率流（Ricci FLow）之于医学图像。

目前，笔者和很多合作者们倾向于认为蒙日-安培理论，最优传输理论对深度学习的发展会起到实质性作用，并为之孜孜以求。这次和丘先生主要讨论蒙日-安培方程正则性理论关于GAN模型中模式崩溃（Mode Collapse）的解释，细节请见论文【1】。

模式崩溃（Mode Collapse）

对抗生成网络被广泛应用于图像生成领域，比较常用的有超分辨率、图像翻译、卡通人物生成、人体姿态生成、年龄变换、风格变换等等，超乎想象，精彩纷呈。另一方面，GAN模型训练困难，变化无常，神秘莫测。由于其强烈的不稳定性，目前难以大规模实用。

图1. MNIST数据集 tSNE 嵌入在平面上，10个团簇对应着10个模式（modes）。模式崩溃（Mode Collapse）指生成模型只生成其中的几种模式。

如图1所示，给定数据集合，我们用编码映射将其映入隐空间中，每个数字对应一个团簇，即MNIST数据的概率分布密度函数具有多个峰值，每个峰值被称为是一个模式（mode）。理想情况下，生成模型应该能够生成10个数字，如果只能生成其中的几个，而错失其它的模式，则我们称这种现象为模式崩溃（mode collapse）。

具体而言，GAN训练中经常出现如下三个层次的问题：

训练过程难以收敛，经常出现震荡；实验结果随机，难以复现；

训练收敛，但是出现模式崩溃（Mode Collapse）。例如，我们用MNIST数据集训练GAN模型，训练后的GAN只能生成十个数字中的某一个；或者在人脸图片的实验中，只生成某一种风格的图片。

用真实图片训练后的GAN模型涵盖所有模式，但是同时生成一些没有意义、或者现实中不可能出现的图片。

我们将这些现象笼统称为广义的模式崩溃问题。如何解释模式崩溃的原因，如何设计新型算法避免模式崩溃，这些是深度学习领域的更为基本的问题。我们用最优传输中的Brenier理论，和蒙日-安培方程（Monge-Ampere）的正则性（regularity）理论来解释模式崩溃问题。

GAN和蒙日-安培方程

我们以前讨论过对抗生成网络的最优传输观点：生成器（Generator）将隐空间的高斯分布变换成数据流形上一个分布，判别器（Discriminator）计算生成分布和真实数据分布之间的距离，例如Wasserstein距离。这些操作本质上都可以用最优传输理论来解释，并且加以改进。以欧氏距离平方为代价函数的最优传输问题归结为Brenier理论，并且等价于凸几何中的Alexandrov理论，最终归结为蒙日-安培方程。

在工程计算中，我们通常用Alexandrov弱解来逼近真实解，我们以前讨论过Alexandrov弱解的存在性和性。

蒙日-安培方程的正则性理论

由Brenier定理，Brenier势能函数为整体Lipschitz，因此几乎处处可导。我们称可求导的点为正常点（regular point），不可求导的点为奇异点（singular point），则奇异点集合为零测度。我们考察每一点处的次微分，

图2. 最优传输映射中的奇异点集合，（苏科华作）。

如图2所示，目标测度的支集具有两个联通分支，我们稠密采样目标测度，表示成定义在两个团簇上面的狄拉克测度。我们然后计算蒙日-安培方程的Alenxandrov解。依随采样密度增加，狄拉克测度弱收敛到目标测度，Alenxandrov解收敛到真实解。我们看到Brenier势能函数的Alenxandrov解可以表示成一张凸曲面，图曲面中间有一条脊线（ridge），脊线的投影是最优传输映射的奇异点集

图3. GPU版本的最优传输映射（郭洋、Simon Lam 作）。

图3显示了基于GPU算法的从平面长方形上的均匀分布到两个半圆盘上的均匀分布的最优传输映射，长方形的中线显示了最优传输映射的奇异点集

图4. GPU版本的最优传输映射（郭洋、Simon Lam作）。

图4从平面长方形上的均匀分布到哑铃形状上的均匀分布的最优传输映射，仔细观察，我们可以看出最优传输映射的奇异点集是中线上的两条线段，介于红蓝斑点之间。

图5. 最优传输映射的奇异点结构（齐鑫、苏科华作）。

图6. 实心兔子和实心球之间的最优传输映射，表面皱褶结构，(苏科华作)。

最优传输映射的奇异点结构理论在高维空间依然成立，如图6所示，实心球体和实心兔子体之间的最优传输映射诱导了兔子表面上的大量皱褶，最优传输映射在皱褶处间断。

模式崩溃的理论解释

目前的深度神经网络只能够逼近连续映射，而传输映射是具有间断点的非连续映射，换言之，GAN训练过程中，目标映射不在DNN的可表示泛函空间之中，这一显而易见的矛盾导致了收敛困难；如果目标概率测度的支集具有多个联通分支，GAN训练得到的又是连续映射，则有可能连续映射的值域集中在某一个连通分支上，这就是模式崩溃（mode collapse）；如果强行用一个连续映射来覆盖所有的连通分支，那么这一连续映射的值域必然会覆盖之外的一些区域，即GAN会生成一些没有现实意义的图片。这给出了GAN模式崩溃的直接解释。

那么，如何来用真实数据验证我们的猜测呢？我们用CelebA数据集验证了传输映射的非连续性。

图7. AE-OT体系结构。

图8. AE-OT生成的人脸图像。

图10. 在隐空间进行插值的结果。

那么如何避免模式崩溃呢？通过以上分析我们知道，深度神经网络只能逼近连续映射，传输映射本身是非连续的，这一内在矛盾引发了模式崩溃。但是最优传输映射是Brenier势能函数的梯度，Brenier势能函数本身是连续的，因此深度神经网络应该来逼近Brenier势能函数，而非传输映射。更进一步，我们应该判断Brenier势能函数的奇异点，即图2中的脊线和图6中的皱褶。

小结

基于真实数据的流形分布假设，我们将深度学习的主要任务分解为学习流形结构和概率变换两部分；概率变换可以用最优传输理论来解释和实现。基于Brenier理论，我们发现GAN模型中的生成器D和判别器G计算的函数彼此可以相互表示，因此生成器和判别器应该交流中间计算结果，用合作代替竞争。Brenier理论等价于蒙日-安培方程，蒙日-安培方程正则性理论表明：如果目标概率分布的支集非凸，那么存在零测度的奇异点集，传输映射在奇异点处间断。而传统深度神经网络只能逼近连续映射，这一矛盾造成了模式崩溃。

通过计算Brenier势能函数，并且判定奇异点集，我们可以避免模式崩溃。这些算法存在GPU实现方式。这种方法更为稳定，鲁棒，训练效率大为提升，并且用透明的理论模型部分取代了经验的黑箱。

References

【1】Na Lei, Yang Guo, Dongsheng An, Xin Qi, Zhongxuan Luo, Shing-Tung Yau, Xianfeng Gu. "Mode Collapse and Regularity of Optimal Transportation Maps", ArXiv:1902.02934

声明：文章收集于网络，为传播信息而发，如有侵权，请联系小编及时处理，谢谢！

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法，实际应用案例分享与讨论，分析工具，ETL工具，数据仓库，数据挖掘工具，报表系统等全方位知识

QQ群：81035754

GPU云服务器云服务器解释器模式深度学习使用的理论 ai语音的基础理论解释域名的意义

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/4847.html

王飞跃等：生成式对抗网络 GAN 的研究进展与展望

摘要：引用格式王坤峰，苟超，段艳杰，林懿伦，郑心湖，王飞跃生成对抗网络的研究与展望自动化学报，论文作者王坤峰，苟超，段艳杰，林懿伦，郑心湖，王飞跃摘要生成式对抗网络目前已经成为人工智能学界一个热门的研究方向。本文概括了的研究进展并进行展望。 3月27日的新智元 2017 年技术峰会上，王飞跃教授作为特邀嘉宾将参加本次峰会的 Panel 环节，就如何看待中国 AI学术界论文数量多，但大师级人物少的现...

xiaokai 2019-04-25 18:10 评论0 收藏0
GAN--提升GAN训练的技巧汇总

摘要：特征匹配改变了生成器的损失函数，以最小化真实图像的特征与生成的图像之间的统计差异。我们建议读者检查上使用的损失函数和相应的性能，并通过实验验证来设置。相反，我们可能会将注意力转向寻找在生成器性能不佳时不具有接近零梯度的损失函数。前言GAN模型相比较于其他网络一直受困于三个问题的掣肘： 1. 不收敛；模型训练不稳定，收敛的慢，甚至不收敛； 2. mode collapse; 生成器产生的...

amuqiao 2019-04-25 18:32 评论0 收藏0
DeepMind提出Auto-encoding GAN的变分方法

摘要：例如，即插即用生成网络通过优化结合了自动编码器损失，损失，和通过与训练的分类器定于的分类损失的目标函数，得到了较高水平的样本。该论文中，作者提出了结合的原则性方法。在机器学习研究领域，生成式对抗网络（GAN）在学习生成模型方面占据着统治性的地位，在使用图像数据进行训练的时候，GAN能够生成视觉上以假乱真的图像样本。但是这种灵活的算法也伴随着优化的不稳定性，导致模式崩溃（mode colla...

atinosun 2019-04-25 18:15 评论0 收藏0
GAN和蒙日-安培方程理论

摘要：最近老顾收到很多读者来信，绝大多数询问对抗生成网络的最优传输解释，以及和蒙日安培方程的关系。蒙日安培方程的几何解法硬件友好，可以用目前的并行实现。蒙日安培方程的正则性理论更加复杂，但是对于模式塌缩的理解非常关键。最近老顾收到很多读者来信，绝大多数询问对抗生成网络的最优传输解释，以及和蒙日-安培方程的关系。很多问题涉及到经典蒙日-安培方程理论，这里我们从偏微分方程和几何角度介绍一下蒙日-安培...

maybe_009 2019-04-25 18:31 评论0 收藏0
为什么让GAN一家独大？Facebook提出非对抗式生成方法GLANN

摘要：的两位研究者近日融合了两种非对抗方法的优势，并提出了一种名为的新方法。的缺陷让研究者开始探索用非对抗式方案来训练生成模型，和就是两种这类方法。不幸的是，目前仍然在图像生成方面显著优于这些替代方法。生成对抗网络（GAN）在图像生成方面已经得到了广泛的应用，目前基本上是 GAN 一家独大，其它如 VAE 和流模型等在应用上都有一些差距。尽管 wasserstein 距离极大地提升了 GAN 的...

iOS122 2019-04-25 18:30 评论0 收藏0