AI 学会“脑补”：神经网络超逼真图像补完从 0 到 1

tulayang 发布于2019-04-25 18:08 / 2682人阅读

摘要：那些局部响应由小的通常神经补丁表示。概述我们寻求对损失函数进行了优化的修复图像，其被表示为三个项的组合整体内容项，局部纹理项和项。我们的方法使用两个联合损失函数来解决未知图像，即整体内容损失和局部纹理损失。

完胜 PS！新方法实现完美“脑补”

在分享照片之前，你可能会想进行一些修改，例如擦除分散注意力的场景元素，调整图像中的物体位置以获得更好的组合效果，或者把被遮挡的部分恢复出来。

这些操作，以及其他许多编辑操作，需要进行自动的孔洞填充（图像补足），这是过去几十年间计算机视觉和图形领域的一个研究热点。因为自然图像固有的模糊性和复杂性，整体填充也是长期以来的难点。

但现在，这个问题终于得到了比较好的解决，证据就是下面这幅图。

这项全新研究的主要贡献是：

提出了一个联合优化框架，可以通过用卷积神经网络为全局内容约束和局部纹理约束建模，来虚构出缺失的图像区域。

进一步介绍了基于联合优化框架的用于高分辨率图像修复的多尺度神经补丁合成算法。

在两个公共数据集上评估了所提出的方法，并证明了其优于基线和现有技术的优势。

克服现有方法局限，用深度学习风格转移合成逼真细节

我们稍后会详细介绍这项研究成果。在此之前，有必要补充一下背景知识。

现有的解决孔洞填充问题的方法分为两组。第一组方法依赖于纹理合成技术，其通过扩展周围区域的纹理来填充空白。这些技术的共同点是使用相似纹理的补丁，以从粗到精的方式合成孔洞的内容。有时，会引入多个尺度和方向，以找到更好的匹配补丁。Barnes et al.(2009) 提出了 PatchMatch，这是一种快速近似最近邻补丁的搜索算法。

尽管这样的方法有益于传递高频纹理细节，但它们不抓取图像的语义或全局结构。第二组方法利用大型外部数据库，以数据驱动的方式虚构缺失的图像区域。这些方法假定被相似上下文包围的区域可能具有相似的内容。如果能找到和所查询图像具有足够视觉相似度的图像样本，这种方法会非常有效，但是当查询图像在数据库中没有被很好地表示时，该方法可能会失败。另外，这样的方法需要访问外部数据库，这极大地限制了可能的应用场景。

最近，深度神经网络被用于纹理合成和图像的风格化（stylization）。特别需要指出，Phatak et al（2016）训练了具有结合了和对抗性损失的编码器 - 解码器 CNN（Context Encoders）来直接预测丢失的图像区域。这项工作能够预测合理的图像结构，并且评估非常快，因为孔洞区域的预测是在a single forward pass中进行的。虽然结果令人鼓舞，但有时这种方法的修复结果缺乏精细的纹理细节，在空白区域的边界周围会产生可见的伪迹。这种方法也不能处理高分辨率图像，因为当输入较大时，和对抗性损失相关的训练会有困难。

在最近的一项研究中，Li和Wand（2016）指出，通过对图像进行优化（该图像的中间层神经响应与内容图像相似，底层卷局部响应模仿style图像的局部响应），可以实现逼真的图像stylization结果。那些局部响应由小的（通常3×3）神经补丁表示。该方法证明能够将高频率细节从style图像传输到内容图像，因此适合于实际的传递任务（例如，传递面部或汽车的外观）。尽管如此，通过使用神经响应的 gram matrices 能更好地进行更多艺术风格的传递。

好，是主角出场的时候了——

为了克服上述方法的局限性，来自伯克利、Adobe、Pinscreen 和 USC Institute for Creative Technologies 的研究人员提出了一种混合优化方法（joint optimization），利用编码器 - 解码器CNN的结构化预测和神经补丁的力量，成功合成了实际的高频细节。类似于风格转移，他们的方法将编码器 - 解码器预测作为全局内容约束，并且将孔洞和已知区域之间的局部神经补丁相似性作为风格（style）约束。

更具体地说，使用中间层的补丁响应（该中间层使用预训练分类网络），可以通过训练类似于 Context Encoder 的全局内容预测网络来构造内容约束，并且可以用环绕孔洞的图像内容来对纹理约束进行建模。可以使用具有有限存储的 BFGS 的反向传递算法来有效地优化这两个约束。

作者在论文中写道：“我们通过实验证明，新提出的多尺度神经补丁合成方法可以产生更多真实和连贯的结果，保留结构和纹理的细节。我们在两个公共数据集上定量和定性地评估了所提出的方法，并证明了其在各种基线和现有技术上的有效性，如图1 所示。”

图1：对于给定的一张带有孔洞（256×256）的图像（512×512），我们的算法可以合成出更清晰连贯的孔洞内容（d）。我们可以和用Context Encoders（b）、PatchMatch（c）这两种方法产生的结果进行比较。

具体方法

为了进一步处理带有大面积孔洞的高分辨率图像，作者提出了一种多尺度神经补丁合成方法。为了简化公式，假设测试图像始终裁剪为 512×512，中间有一个 256×256 的孔洞。然后，创建一个三级金字塔，步长为二，在每个级别将图像缩小一半。它呈现 128×128 的较低分辨率，带有 64×64 的孔洞。接下来，我们以从粗到精的方式执行孔洞填充任务。初始化较低级别的内容预测网络的输出，在每个尺度（1）执行联合优化以更新孔洞；（2）upsample 以初始化联合优化并为下一个尺度设置内容约束。最后，重复此步骤，直到联合优化以较高分辨率完成。

Framework 概述

我们寻求对损失函数进行了优化的修复图像，其被表示为三个项的组合：整体内容项，局部纹理项和tv-loss项。内容项是捕获图像的语义和全局结构的全局结构约束，并且局部项通过使其与已知区域一致来重新定义局部纹理。内容项和纹理项均使用具有固定参数的预训练网络来计算。

图2. Framework 概述。我们的方法使用两个联合损失函数来解决未知图像，即整体内容损失和局部纹理损失。通过将图像馈送到预训练的内容预测网络，并且将输出与推理（reference）内容预测进行比较来导出整体内容损失。通过将 x 馈送到预训练网络（称为纹理网络），并且在其特征图上比较局部神经补丁来导出局部纹理损失。

高分辨率图像修复的算法

给定一个带有孔洞的高分辨率图像，我们产生了多尺度输入其中S是尺度的数量。s = 1是最粗糙的尺度，s = S是输入图像的原始分辨率。我们以迭代多尺度方式进行这一优化。

我们首先将输入缩小到粗糙尺度，计算内容的推理（reference）。在实际操作中，我们在 upsample 到一个新尺度时，将宽度和高度加倍。在每个尺度中，我们根据等式 1 更新，通过 upsample 设置优化初始，并通过 upsample 在尺度上设置内容 reference。我们因此迭代地取得高分辨率的修复结果。算法1 是对该算法的总结。

实验过程

数据集

我们在两个不同的数据集上评估了我们提出的方法：Paris StreetView 和ImageNet 。不使用与这些图像相关联的标签或其他信息。 Paris StreetView 包含 14,900 个训练图像和 100个测试图像。 ImageNet 有 1,260,000 个训练图像，以及从验证集随机选取的 200 个测试图像。我们还选择了20个含干扰项的图像，以测试我们用于真实干扰项移除场景的算法。

量化比较

我们首先在 Paris StreetView 数据集上就低分辨率图像（128×128）将我们的方法和基线方法进行了定量比较。表1中的结果表明，我们的方法实现了较高的数值性能。我们将这归因于我们方法的性质——和 PatchMatch 相比，它能够推断图像的正确结构，而和 Context Encoder 相比，它能够从已知区域传递纹理细节。（图3）我们优于PatchMatch的结果表明，内容网络有助于预测合理的结构。我们胜过 Context Encoder 的结果表明，由纹理网络执行的神经补丁合成方法的有效性。

表1：在Paris StreetView数据集上的数值比较。PSNR值越高越好。

图3：Context Encoder（损失）、Context Encoders（对抗性损失）和PatchMatch的比较。当从边界向孔洞区域传递纹理时，我们的方法比Context Encoder（既使用损失也使用对抗性损失）表现更好。在推理正确结构时，我们的方法比PatchMatch表现更好。

内容网络在联合优化中的作用。我们比较了使用内容约束和不使用内容约束的修复结果。如图4 所示，当不使用内容项来引导优化时，修复结果的结构出错了。

图4：（a）为原始输入，（b）是不使用内容约束产生的修复结果，（c）是我们的结果。

高分辨率图像修复

图5是在ImageNet数据集上的比较结果。从上至下：原始输入，PatchMatch，Context Encoder（同时使用和对抗性损失），我们的结果。所有图像分辨率都是512×512（本文中已缩小以适应页面显示）。

图6是在Paris StreetView数据集上的比较结果。从上至下：原始输入，PatchMatch，Context Encoder（同时使用和对抗性损失），我们的结果。所有图像分辨率都是512×512（本文中已缩小以适应页面显示）。

真实世界干扰项去除场景

最后，我们的算法很容易扩展为处理任意形状的孔洞。这是通过估计任意孔洞周围的边界平方，填充孔洞内的平均像素值，并通过裁剪图像形成输入，以使正方形边界框处于输入的中心，并将输入调整为内容网络输入的大小。然后，我们使用已经训练的内容网络进行前向传播。在联合优化中，纹理网络对自然中孔洞的形状和位置没有限制。这是分离将内容和纹理项分离的额外好处。由于 Context Encoder 仅限于方孔，我们在图7中展示了和 PatchMatch 的对比结果。如图所示，我们提出的联合优化方法更好地预测了结构，并提供了清晰和逼真的结果。

图7：随意对象的去除。从左到右：原始输入，对象遮挡，PatchMatch 结果，我们的结果。

结论

作者使用神经补丁合成提升了语义修复的现有技术。可以看到，当内容网络给出较强的关于语义和全局结构的先验信息时，纹理网络在生成高频细节方面非常强大。有一些场景复杂的情况，这种新的方法会产生不连续性和违背真实的图像（图8）。此外，速度仍然是这种算法的瓶颈。研究人员的目标是在未来的工作中解决这些问题。

图8：这是两个联合优化法失败的例子。

论文：使用多尺度神经补丁合成修补高分辨率图像

摘要

对于带有语义合理性和情境感知细节的自然图像，深度学习的进展为填充这些图像上的大面积孔洞带来了乐观的前景，并影响了诸如对象移除这样的基本的图像处理任务。虽然这些基于学习的方法在捕获高级特征方面比现有技术明显更有效，但由于存储器限制和训练困难，它们只能处理分辨率很低的输入。即使对于稍大的图像，修复的区域也会显得模糊，而且可以看到令人不快的边界。我们提出一种基于图像内容和风格（style）约束联合优化的多尺度神经补丁合成方法，不仅保留上下文结构，而且通过匹配和适应具有与深度分类网络相似的中层特性的补丁，可以产生高频细节。我们在 ImageNet 和 Paris Streetview 数据集上评估了我们的方法，并实现了较先进的修复精度。我们表明，相对于之前的方法，我们的方法可以产生更清晰和更连贯的结果，特别是对于高分辨率图像来说。

论文地址：https://arxiv.org/pdf/1611.09969.pdf

Github 代码：https://github.com/leehomyc/High-Res-Neural-Inpainting

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法，实际应用案例分享与讨论，分析工具，ETL工具，数据仓库，数据挖掘工具，报表系统等全方位知识

QQ群：81035754

GPU云服务器云服务器从0到1搭建视频通话系统从0开始到1千万用户 ai智能图像识别 face_sdk-1.0.0

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/4459.html

感知对抗网络 PAN，一个框架搞定多种图像转换

摘要：此前有工作将像素损失和生成对抗损失整合为一种新的联合损失函数，训练图像转换模型产生分辨率更清的结果。一般来说，结合使用多种损失函数的效果通常比单独使用一种要好。结合感知对抗损失和生成对抗损失，提出了感知对抗网络这一框架，处理图像转换任务。近来，卷积神经网络的发展，结合对抗生成网络（GAN）等崭新的方法，为图像转换任务带来了很大的提升，包括图像超分辨率、去噪、语义分割，还有自动补全，都有亮眼...

happen 2019-04-25 18:16 评论0 收藏0
专访Goodfellow：欲在谷歌打造GAN团队，用假数据训练真模型

摘要：是世界上最重要的研究者之一，他在谷歌大脑的竞争对手，由和创立工作过不长的一段时间，今年月重返，建立了一个探索生成模型的新研究团队。机器学习系统可以在这些假的而非真实的医疗记录进行训练。今年月在推特上表示是的，我在月底离开，并回到谷歌大脑。理查德·费曼去世后，他教室的黑板上留下这样一句话：我不能创造的东西，我就不理解。（What I cannot create, I do not under...

JaysonWang 2019-04-25 18:12 评论0 收藏0
“未卜先知”、“自学成才”：GANs奇思妙想TOP10榜单

摘要：实现这一应用的基本思想方法是将图像的每一列用向量来表示，计算每一个的平均值，从而得到一个向量。标准加强学习模型通常要求建立一个奖励函数，用于向代理机器反馈符合预期的行为。来源更多信息自学成才让好奇驱动计算机学习在很多还记得《射雕英雄传》中老顽童发明的左右互搏术吗？表面上看，左手与右手互为敌手，斗得不可开交。实际上，老顽童却凭借此练就了一门绝世武功。这样的故事似乎只能发生在小说中。然而，...

JessYanCoding 2019-04-25 18:16 评论0 收藏0
吃了这些数据集和模型，跟 AI 学跳舞，做 TensorFlowBoys

摘要：最近，这就是街舞第二季开播，又一次燃起了全民热舞的风潮。然而，真要自己跳起来，实际与想象之间，估计差了若干个罗志祥。系统映射结果展示对于系统的结果，研究人员表示还不完美。谷歌在和跳舞的结合上也花了心思。好了，先不说了，我要去跟学跳舞了。最近，《这！就是街舞》第二季开播，又一次燃起了全民热舞的风潮。刚开播没多久，这个全程高能的节目，就在豆瓣上就得到了 9.6 的高分。舞者们在比赛中精...

dkzwm 2019-06-26 19:00 评论0 收藏0
最强GAN修图魔术师：美颜生发摘眼镜、草绘秒变真人脸

摘要：该研究成果由韩国团队发表于论文地址训练数据恰当的训练数据有助于提高网络训练性能。在将损失函数应用于输入图像之前，用输入图像替换了掩模外部的图像的剩余部分。总体损失函数如下其中，发生器用进行训练，鉴别器用进行训练。为一个设计师，是否整天因为繁琐枯燥的修图工作不胜其烦？现在，一款基于GAN的AI修图大师可以将你从这类工作中解放出来。修轮廓、改表情、生发、加耳环、去眼镜、补残图，你能想到的它都能...

xialong 2019-04-25 18:31 评论0 收藏0