浅谈AI视频技术超分辨率

Towers 发布于2019-06-26 18:47 / 3099人阅读

摘要：在这种场景下网易云信可以在接收的终端上通过超分辨率技术，恢复视频质量，极大地提升了移动端用户的体验。云信通过人工智能深度学习将低分辨率视频重建成高分辨率视频模糊图像视频瞬间变高清，为移动端为用户带来极致视频体验。

泛娱乐应用成为主流，社交与互动性强是共性，而具备这些特性的产品往往都集中在直播、短视频、图片分享社区等社交化娱乐产品，而在这些产品背后的黑科技持续成为关注重点，网易云信在网易MCtalk 泛娱乐创新峰会上重点介绍了超越像素的AI视频黑科技“超分”。
超分辨率(Super-Resolution)通过硬件或软件方法提高原有图像的分辨率，通过一幅或者多幅低分辨率的图像来得到一幅高分辨率的图像过程就是超分辨率重建，可以通过人工智能深度学习将低分辨率视频重建成高分辨率视频模糊图像、视频瞬间变高清，为移动端为用户带来极致视频体验。
什么是超分辨率
广义的超分辨率 (SR, Super Resolution) 是指一类用于提升图像分辨率的技术。这类技术已经存在了很长一段时间，应用也非常广泛。事实上，每当我们需要以不同于原始分辨率的尺寸来显示或存储图像时，就已经使用了SR，只不过使用的是其中最为简单的那类算法而已。
随着图像处理理论的发展，以及机器学习的普及和更高性能的处理器的出现，各类更优秀的SR算法陆续出现。现在我们提及SR时，往往是特指依靠机器学习来实现的图像放大算法。下文提到SR时也均特指这类算法。它能够提供远超于传统图像放大算法的图像质量。当然，运算量也要高得多。

图1. 将原始图像缩小3倍后分别使用Bicubic (一种传统图像放大算法) 和SRCNN (一种基于CNN的图像放大算法) 进行放大[1]。
超分辨率理论描述
SR算法本质上和传统图像放大算法没什么不同，都是利用已有的图像信息去预测需要的像素点。只不过传统算法的预测模型非常简单，可以通过人工设计的方式实现。例如双线性插值，就是利用目标像素周围的四个点来做预测，离目标位置越近的点权重越大，通过一个简单的公式就能得到结果: f(x,y)=f(0,0)(1-x)(1-y)+f(1,0)x(1-y)+f(0,1)(1-x)y+f(1,1)xy

图2. 双线性插值，通过Q11~Q22这四个点预测点P
而现代SR算法为了得到更精确的预测结果，其预测模型则复杂了很多。一般有多个卷积层和激活层，会利用到目标像素周围很大一片区域的图像信息，包含成千上万个模型参数，纯靠人工设计是不现实的。所以人们才会依靠机器学习的方式来决定参数。这种做法还附带有不少好处。例如你无需对图像处理有深厚的理解就可以训练模型，再比如你可以根据自己的应用场景调整训练集，从而得到更适合你的预测模型。
下图是一个简单的例子，来自经典的超分算法SRCNN[1]。模型基于卷积神经网络，以原始图像为输入，先是用廉价的上采样算法将分辨率提升到期望的大小, 然后经过3层分别为9x9x128，3x3x64，5x5的卷积运算，得到超分输出。

图3. SRCNN网络结构
这几年每届超分竞赛都会出现不少值得借鉴的新理论和新实现，SR的效果上限被不断提高。介绍这些算法的文章有很多，感兴趣的读者可以自行搜索。
什么时候用超分辨率
虽然视觉效果很好，但SR在使用上有几方面限制需要我们注意。其中最重要的就是性能这个硬性指标。即便是极为简单的SR算法，其运算量也是传统放大算法的上千倍，能否满足应用的性能需求是需要经过测试和优化的。
另外，目前的SR算法主要分两个流派，一派的目标是尽可能地还原信息，另一派则允许在不影响视觉体验的前提下对内容进行一些修改。我们需要根据应用场景来选择不同的算法。如果在对图像还原度要求较高的场合下使用了不适当的SR算法，可能带来不好的后果。

图4. 上图左侧为SRGAN模型[2]放大4倍生成的图片，可以看到首饰的纹理被大幅修改。
还有一点，目前的SR算法大都针对自然图像。对于一些特殊的图像，例如因为缩小而失真的文字，直接使用SR算法去放大的效果实际测试下来并不理想。

图5. 直接使用SR并不能较好地还原失真的文字
超分辨率的优势
基于深度学习的超分技术能较好的恢复图像细节. 在视频发送源可能因为种种客观限制，无法提供高分辨率的视频. 比如摄像头采集能力不足，网络带宽不足，源端处理能力不足等，在这些情形下，如果云端或者接收端的处理能力满足要求，可以借助超分技术，对于视频质量做恢复，呈现给用户高质量的视频. 所以超分技术为在恶劣的客观条件下的视频应用提供了高质量呈现的可能，是传统的应用借助人工智能技术提升使用体验的一种典型落地场景.
网易云信在超分辨率的实践
网易云信提供了点播直播和实时音视频等技术能力。支持的终端包括Windows PC, MAC, iPhone, iPad, Android手机，机顶盒，智能手表等可穿戴设备。其中可穿戴设备，机顶盒等终端的成本控制比较严格，通常CPU处理能力相对较弱，无法支持高清，甚至标清的视频规格，但是作为这些终端的使用者，它们依然希望看到高清或标清的视频质量，接收的终端可能是PC或者性能较好的手机, 平板电脑等设备，他们自己可能有能力提供优秀的计算资源。在这种场景下, 网易云信可以在接收的终端上通过超分辨率技术，恢复视频质量，极大地提升了移动端用户的体验。如果接收的终端本身运算能力不足以支撑深度学习，但是有能力处理高清视频的解码，网易云信依然可以在云端对低分辨率的视频进行处理，采用包括超分在内的技术，对质量恢复后，将高质量的视频提供到接收终端。
尤其针对弱网情况，云信将在云端或者接收终端通过超分技术对质量进行补偿，为用户呈现超高质量视频。云信通过人工智能深度学习将低分辨率视频重建成高分辨率视频模糊图像、视频瞬间变高清，为移动端为用户带来极致视频体验。
[1] C. Dong, C. C. Loy, K. He, and X. Tang. Learning a deep convolutional network for image super-resolution. In European Conference on Computer Vision (ECCV), pages 184–199. Springer,
2014.
[2] Ledig C, Theis L,Huszar F, et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network[J]. 2016:105-114.

想要阅读更多技术干货、行业洞察，欢迎关注网易云信博客。

了解网易云信，来自网易核心架构的通信与视频云服务。

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/19927.html

AI 学会“脑补”：神经网络超逼真图像补完从 0 到 1

摘要：那些局部响应由小的通常神经补丁表示。概述我们寻求对损失函数进行了优化的修复图像，其被表示为三个项的组合整体内容项，局部纹理项和项。我们的方法使用两个联合损失函数来解决未知图像，即整体内容损失和局部纹理损失。完胜 PS！新方法实现完美脑补在分享照片之前，你可能会想进行一些修改，例如擦除分散注意力的场景元素，调整图像中的物体位置以获得更好的组合效果，或者把被遮挡的部分恢复出来。这些操作，以及其...

tulayang 2019-04-25 18:08 评论0 收藏0
首次公开！《阿里计算机视觉技术精选》揭秘前沿落地案例

摘要：元旦假期即将来临，我们精心准备了这本阿里巴巴机器智能计算机视觉技术精选，收录了顶级会议阿里论文，送给计划在假期充电的同学们，也希望能和更多学术界工业界同仁一起探讨交流。当下计算机视觉技术无疑是AI浪潮中最火热的议题之一。视觉技术的渗透，既可以对传统商业进行改造使之看到新的商业机会，还可以创造全新的商业需求和市场。无论在电商、安防、娱乐，还是在工业、医疗、自动驾驶领域，计算机视觉技术都...

Carbs 2019-06-26 18:41 评论0 收藏0
人工智能期末笔记

摘要：举例，神经元，感知机，神经网络行为主义智能机器人认为人工智能源于控制论。人工智能的研究领域包括专家系统推荐系统等等。是一种实现人工智能的方法根据某些算法，通过大量数据进行训练和学习，然后对真实世界中的事件做出决策和预测。 1. 绪论四大流派符号主义(知识图谱)原理主要为物理符号系统(即符号操作系统)假设和有限合理性原理用数理逻辑描述智能行为, 在计算机上实现了逻辑演绎系统。 ...

CodeSheep 2019-06-26 18:48 评论0 收藏0