资讯专栏INFORMATION COLUMN

以假乱真,MIT基于深度学习的新算法给视频配音

mmy123456 / 2030人阅读

摘要:它们的学习过程主要来自于深度学习框架,该项目也由美国国家科学基金会资助。听音辨物为视频匹配逼真声音是音效师的主要工作领域后期制作音频向导,他们记录你在一部好莱坞电影中看到和听到的脚步声门的嘎吱声腾空横踢。

神经网络已经在玩游戏方面超过了我们,并且也应用于智能手机照片的管理以及邮件回复方面。此外,它们还能在好莱坞谋得一职。 

在 MIT 的计算机科学和人工智能实验室(CSAIL),一个由 6 位研究人员组成的小组创建了一套机器学习系统,它可以将声音效果与视频剪辑匹配。 别高兴得太早,CSAIL 的算法还不能在任何旧的视频上工作,而且它产生的声音效果也是有限的。对于该项目,CSAIL 的博士生 Andrew Owens 和研究生 Phillip Isola 将他们用鼓槌重击一堆东西录制成视频,包括树桩、桌子、椅子、水坑、楼梯扶手、枯叶,还有肮脏的地面。 

该小组将最初的 1000 个批量视频输入到它的 AI 算法中。通过分析视频中物体的物理外观,鼓槌的每次运动轨迹,还有最终的声音,计算机能够学习到物理物体和它被击中所发声音之间的联系。然后,通过“观 看”物体被鼓槌重击,轻敲和刮蹭时的不同视频,这个系统可以计算出伴随每个剪辑相应的音调、音量以及的声音听觉特性。

视频:https://youtu.be/0FW99AQmMc8 

该算法本身不产生声音——它只是从成千上万的音频剪辑数据库中获取数据。此外,声音效果也不是基于视觉匹配来选择;你可以在上面视频中1:20 处看到,该算法有自己的创意。它随着沙沙作响的塑料袋来选择声音效果,在灌木从彻底被鼓槌敲击时直接给出声音效果。 

Owens 说,研究小组使用 卷积神经网络来分析视频帧,递归神经网络来选择对应的音频。 

它们的学习过程主要来自于 Caffe 深度学习框架,该项目也由美国国家科学基金会(National Science Foundation and Shell)资助。小组的一名成员在谷歌研究院工作,Owens 则是微软研究奖学金计划的一员。 

Owens 说,“我们几乎已经把现有的深度学习技术运用到了新领域,我们的目标不是开发新的深度学习方法。” 

听音辨物 

为视频匹配逼真声音是音效师的主要工作领域——后期制作音频向导,他们记录你在一部好莱坞电影中看到(和听到)的脚步声、门的嘎吱声、腾空横踢。 

一位出色的音效师可以将声音较精确匹配给视频,让观众误以为这声音是实际捕捉到的。 

MIT 的机器人还没有这么娴熟。该研究小组进行了一项在线调查,为 4000 名参与者展示了同一视频配上原始音频和算法生成的声音版本,然后让他们选择哪个视频里的声音是真实的。有 22% 的人选择了假音频——还远不完美,但效果仍是之前版本算法的两倍。 

根据 Owens 所述,那些测试结果是一个好兆头,预示着计算机视觉算法可以检测物体的组成,以及轻敲、重击、刮蹭物体时产生的不同物理效果。不过,还是有些物体系统不能 正确处理。有些时候,系统会认为鼓槌在撞击某一物体,但实际上并没有,比起对更坚实物体产生的声音效果,更多的人更容易被对落叶和灰尘产生的声音效果愚 弄。 

这个项目不仅仅是为了产生有趣的声音效果,它背后还有更深层的原因。Owens 认为,如果该系统已经非常完善,那么计算机视觉技术就可以帮助机器人通过分析物体发出的声音来识别它的材质和物理属性。Owens 说,“我们希望这些算法通过观察这些物理相互作用以及响应来学习,你可以把它想象成婴儿那样通过敲打、跺脚和玩耍来学习世界。” 

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识

QQ群:81035754

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/4389.html

相关文章

  • 3 分钟带你走进视觉智能新时代 | 七牛云&美图 AI 共享日精彩语录

    摘要:月日下午,七牛云美图共享日在厦门举行,来自七牛云美图厦门大学罗普特等众位大咖齐聚一堂。七牛云美图共享日精华语录计算机识别是按照具体问题具体分析,具体场景具体分析。又称小牛汇共享日,是小牛汇举办的第一个系列活动。 时间机器、穿越星际的宇宙飞船、飞行汽车,几乎每一部科幻电影作品中都能发明点新东西。超现实技术在引起人们阵阵赞叹的同时,也在激励着人们思考如何将不可能变成可能。而在我们的生活当中...

    Jonathan Shieber 评论0 收藏0
  • 深度学习在图像超分辨率重建中的应用

    摘要:基于深度学习的,主要是基于单张低分辨率的重建方法,即。而基于深度学习的通过神经网络直接学习分辨率图像到高分辨率图像的端到端的映射函数。 超分辨率技术(Super-Resolution)是指从观测到的低分辨率图像重建出相应的高分辨率图像,在监控设备、卫星图像和医学影像等领域都有重要的应用价值。SR可分为两类:从多张低分辨率图像重建出高分辨率图像和从单张低分辨率图像重建出高分辨率图像。基于深度学...

    xinhaip 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<