资讯专栏INFORMATION COLUMN

如何使用深度学习重建高分辨率音频?

voidking / 1898人阅读

摘要:音频超分辨率旨在重建一个以较低分辨率波形作为输入的高分辨率音频波形。由于受到深度学习成功应用于图像超分辨率的启发,我最近致力于使用深层神经网络来完成原始音频波形的上采样。上采样块使用子像素卷积,其沿着一个维度重新排列信息以扩展其他维度。

音频超分辨率旨在重建一个以较低分辨率波形作为输入的高分辨率音频波形。在诸如流式音频和音频恢复之类的领域中,这种类型的上采样存在着若干种潜在应用。一个传统的解决方案是使用音频剪辑的数据库,凭借相似性指标来填充下采样波形中的缺失频率(见本文和本文)。由于受到深度学习成功应用于图像超分辨率的启发,我最近致力于使用深层神经网络来完成原始音频波形的上采样。在制定了几种方法之后,我把注意力主要集中于实施和自定义最近将发表于2017年国际学习代表会议(ICLR)上的研究论文。

虽然音频上采样在大量的领域中都可能是有用的,但我只专注于潜在的IP语音应用程序。我为这个项目选择的数据集是一个TED演讲的集合,大小大约为35 GB。每个讲话都位于一个多带带的文件中,比特率为16千比特每秒(kbps),这被认为是高质量的语音音频。这个数据集主要包含一些非常精彩的英语演讲,而这是从大量演讲者在面对不同观众的演讲中挑选出来的。这些TED演讲的质量与人们在IP语音对话期间所期望的值近似。

 

预处理步骤如上图所示。每个文件的第一个和最后30秒被修剪以便删除TED演讲的开始和结束部分。然后将文件拆分为2秒的剪辑,并以4 kbps的速率创建一个独立的,4x下采样的剪辑集合以及一组原始速率为16 kbps的集合。60%的数据集用于训练,20%用于验证,20%用于测试。

 

上图中列出的训练工作流程使用数据预处理步骤中的下采样片段,并将其批量馈入模型(深层神经网络)以更新其权重。具有较低验证分数的模型(表示为“较佳模型”)被保存以供接下来使用。

 

在上图中给出了使用“较佳模型”对音频文件进行上采样的过程。该工作流采用整个音频文件,与预处理步骤类似地将其拼接到剪辑中,将它们依次馈送到经过训练后的模型中,将高分辨率剪辑缝合在一起,并将高分辨率文件保存到磁盘中。

模型架构

我所实现的模型架构是U-Net,它使用的是子像素卷积的一维模拟而不是反卷积层。我使用Tensorflow的Python API构建和训练模型,同时使用Tensorflow的C ++ API实现子像素卷积层。该模型的工作原理如下:

下采样波形通过八个下采样块发送,每个采样块都由步幅为2的卷积层组成。在每个层上,滤波器组的数量加倍,使得沿着波形的维度减小了一半,滤波器组的尺寸增加了两个。

该瓶颈层被构造成与下采样块相同,这个下采样块与8个上采样块相连,而这些块与下行采样块是有残留连接的。这些残留连接允许共享从低分辨率波形学习到的特征。

上采样块使用子像素卷积,其沿着一个维度重新排列信息以扩展其他维度。

在原始输入中添加了具有重新排列和重新排序操作的最终卷积层,以便产生上采样波形。

所使用的损耗函数是输出波形与原始高分辨率波形之间的均方差。

性能

 

上图显示了在10个训练时期之后,测试样本的两项性能指标。左列是频率与时间的频谱图,右边是波形振幅对时间的曲线。

第一行包含原始高分辨率音频样本的频谱图和波形图。

中间行包含原始音频样本的4x下采样版本的相似图。请注意,下采样频率图中缺少3/4的较高频率。

最后一行包含训练模型输出的语谱图和波形图。

插入值是两个量化的性能度量指标:信噪比(SNR)和对数光谱距离(LSD)。较高的SNR值表示更清晰的声音,而较低的LSD值表示匹配的频率内容。LSD值显示神经网络正在尝试在适当的地方恢复较高的频率。然而,稍低的SNR值意味着音频可能不是清晰的。

一篇受到这个架构启发的论文声称对数据进行了400次的训练,而由于时间限制,我只能训练10次。较长的训练周期可能导致重建波形的清晰度提高。你可以在下面聆听测试集中的示例音频剪辑。前5秒剪辑是原始音频16 kbps,第二个是4kbps的下采样音频,最后一个是16kbps的重建音频。

1.从测试集中以16 kbps的随机剪辑。

2.下采样版本的上述剪辑。请注意,所有高频内容都丢失。

3.重建剪辑。大部分高频内容已经以牺牲清晰度的代价来恢复。

开源贡献

下采样音频的重建可以有各种应用,更令人兴奋的是将这些技术应用于其他非音频信号的可能性。我鼓励你采用和修改我的github repo提供的代码,从而对这些代码进行实验。

除了提供这些实验的代码之外,我还希望为日益增长的应用AI社区提供更多的开源资源。由于子像素卷积层是一种可能对深入学习研究人员和工程师都有用的通用操作,因此我一直在对TensorFlow作出贡献,并与他们的团队紧密合作,以便将其整合到代码库中。

作者:Jeffrey Hetherly

来源:insightdatascience

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识

QQ群:81035754

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/4560.html

相关文章

  • 深度学习在图像超辨率重建中的应用

    摘要:基于深度学习的,主要是基于单张低分辨率的重建方法,即。而基于深度学习的通过神经网络直接学习分辨率图像到高分辨率图像的端到端的映射函数。 超分辨率技术(Super-Resolution)是指从观测到的低分辨率图像重建出相应的高分辨率图像,在监控设备、卫星图像和医学影像等领域都有重要的应用价值。SR可分为两类:从多张低分辨率图像重建出高分辨率图像和从单张低分辨率图像重建出高分辨率图像。基于深度学...

    xinhaip 评论0 收藏0
  • 深度对抗学习在图像分割和超辨率中的应用

    摘要:深度学习已经在图像分类检测分割高分辨率图像生成等诸多领域取得了突破性的成绩。另一个问题是深度学习的模型比如卷积神经网络有时候并不能很好地学到训练数据中的一些特征。本文通过最近的几篇文章来介绍它在图像分割和高分辨率图像生成中的应用。 深度学习已经在图像分类、检测、分割、高分辨率图像生成等诸多领域取得了突破性的成绩。但是它也存在一些问题。首先,它与传统的机器学习方法一样,通常假设训练数据与测试数...

    FingerLiu 评论0 收藏0
  • 科学领域中的深度学习一览

    摘要:深度学习方法是否已经强大到可以使科学分析任务产生最前沿的表现在这篇文章中我们介绍了从不同科学领域中选择的一系列案例,来展示深度学习方法有能力促进科学发现。 深度学习在很多商业应用中取得了前所未有的成功。大约十年以前,很少有从业者可以预测到深度学习驱动的系统可以在计算机视觉和语音识别领域超过人类水平。在劳伦斯伯克利国家实验室(LBNL)里,我们面临着科学领域中最具挑战性的数据分析问题。虽然商业...

    zhou_you 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<