AI视频生成赛道风起云涌,国内外新颖的文生、图生视频产品层出不穷。在各大厂商的“内卷”之下,当下的视频生成模型各方面已经接近“以假乱真”的效果。例如,OpenAI 的 Sora 和国内的 Vidu、可灵等模型,通过利用 Diffusion Transformer 的扩展特性,不仅能够满足各种分辨率、尺寸和时长的预测要求,同时生成的视频更符合物理世界的表现。
但与此同时,大部分视频生成模型的准确程度、遵循指令的能力还有待提升,生成视频仍然是一个“抽卡”的过程,往往需要用户生成许多次,才能获得符合需求的结果。这也造成算力成本过高、资源浪费等问题。
为了解决这些问题,阿里云提出了一种基于 DiT 架构的轨迹可控视频生成模型 Tora。Tora能够根据任意数量的物体轨迹,图像和文本条件生成不同分辨率和时长的视频,在 720p分辨率下能够生成长达204 帧的稳定运动视频。值得注意的是,Tora继承了DiT的scaling特性,生成的运动模式更流畅,更符合物理世界。
Tora支持轨迹、文本、图像三种模态,或它们的组合输入,可对不同时长、宽高比和分辨率的视频内容进行动态精确控制。
轨迹输入可以是各种各样的直线、曲线,其具有方向,不同方向的多个轨迹也可以进行组合。
例如,你可以用一条S型曲线控制漂浮物的运动轨迹,同时用文字描述来控制它的运动速度。下面这个视频中,所使用的提示词用到了“缓慢”、“优雅”、“轻轻”等副词。
与目前常见的运动笔刷功能有所不同的是,即使没有输入图像,Tora也可以基于轨迹和文本的组合,生成对应的视频。
例如下面这个视频中的1、3两个视频,就是在没有初始帧,只有轨迹和文字的情况下生成的。
Tora也支持首尾帧控制,不过这个案例只以图片形式出现在官方给出的论文里,并没有提供视频演示。
基于OpenSora框架,创新两种运动处理模块
如下图所示,Tora包括一个Spatial-Temporal Denoising Diffusion Transformer,(ST-DiT,时空去噪扩散变换器)、一个Trajectory Extractor(TE,轨迹提取器)和一个Motion-guidance Fuser(MGF,运动引导融合器)。
Tora 的 ST-DiT 继承了 OpenSora v1.2 的设计,将输入视频在时空维度上压缩成Spacetime visual patches(时空视觉补丁),再通过交替的spatial transformer block(空域变换器块) 和temporal transformer block(时域变换器块)进行噪声预测。
为了实现用户友好的轨迹控制,TE 和 MGF 将用户提供的轨迹编码为多层次的Spacetime motion patches(时空运动补丁),再通过自适应归一化层将这些patches无缝整合到每个DiT block中,以确保生成视频的运动与预定义的轨迹一致。
有了与visual patches共享特征空间的运动特征后,下一步需要将多层次的运动特征引入到相应的 DiT 块中,使生成的运动能够遵循预定义的轨迹,同时不影响原有的视觉效果。
Tora 参考了transformer的多种特征注入结构,如上图所示,Motion-guidance Fuser实验了包括额外通道连接、自适应归一化和交叉注意力三种架构。
实验结果显示,自适应归一化在视觉质量和轨迹跟随程度方面表现最佳,同时计算效率最高。自适应归一化层能够根据多样化的条件(文本&轨迹&图像)动态调整特征,确保视频生成的时间一致性。这在注入运动线索时尤为重要,能够有效维持视频运动的连续性和自然性。
实现细节与测试数据
Tora 基于 OpenSora v1.2 权重,使用分辨率从 144p 到 720p、帧数从 51 帧到 204 帧不等的视频进行训练。为平衡不同分辨率和帧数的训练 FLOP和所需内存,批次大小调整为 1 到 25。
训练过程分为两个阶段,首先使用密集光流进行 2 个 epoch 的训练,然后使用稀疏光流进行 1 个 epoch 的微调。
在推理过程中,精选了 185 个包含多样化运动轨迹和场景的长视频片段,作为评估运动可控性的新基准。
在AI视频生成时长、质量已经达到一定程度之际,如何让生成的视频更可控、更符合需求,是当下的重要命题。
在精准度、可控性和资源利用效率等方面的持续优化下,AI视频生成产品的使用体验将迎来新的阶段,价格也会更加亲民,让更多创作者参与进来。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/131146.html
摘要:提到的云计算布局,就不得不提到年月中国领袖峰会上,三位掌门人针对云计算的同台论道。且从官方有限的披露资料而言,很难对现阶段的百度云计算独立做评判。该计划提出的发展目标是到年,我国云计算产业规模达到亿元。提到BAT的云计算布局,就不得不提到2010年3月中国IT领袖峰会上,BAT三位掌门人针对云计算的同台论道。坐在台上的百度和腾讯创始人相继发言,李彦宏不客气的说,云计算好比新瓶装旧酒,技术上没...
摘要:是一系列关于开发的规范,分有好几个版本,自己学的也较为肤浅,但还是希望能时常查看规范,为了方便记忆和遵循,我把关键词为必须的捡拾出来,做个简单地必要规范的记录。所有文件必须使用作为行的结束符。 PSR是一系列关于PHP开发的规范,分有好几个版本,自己学的也较为肤浅,但还是希望能时常查看规范,为了方便记忆和遵循,我把关键词为必须的捡拾出来,做个简单地必要规范的记录。(就是个搬砖的。。。)...
摘要:年,王坚带着解决大规模算力瓶颈的任务加入阿里。王坚带队,目标是自研大数据计算平台统一阿里巴巴内部的数据和大数据计算体系。不仅如此,它们的存储和计算成本还令人意外地降低。从年到年,杭州从全国最拥堵城市排行榜上下跌名。 摘要: 2009年这项关于大数据的技术长征开始。王坚带队,目标是自研大数据计算平台MaxCompute统一阿里巴巴内部的数据和大数据计算体系。 大数据时代,随着企业数据规...
摘要:中国云计算产业进入下半场。业内人士认为,阿里云也是抄上的。一超多强长期存在,背后是生态在较量据年上半年中国公有云市场份额调研报告显示,阿里云腾讯云金山云位列前三,合计占据了中国公有云的市场份额。中国云计算产业进入下半场。标志是政府和传统企业开始上云。2006年,Amazon Web Services(AWS)开始向企业提供IT基础设施服务。作为战略的跟随者,阿里巴巴于2008年开始布局云计算...
摘要:在上能看到好多效果惊艳的图标。现在来看代码,相信不会再是一头雾水了也可以用控制的属性,控制的动画过程,做成能响应点击等事件的图标按钮。当然能做的远不止图标,这里有不少例子。 在 loading.io 上能看到好多效果惊艳的loading图标。它们都是用sv...
阅读 156·2024-12-10 11:51
阅读 303·2024-11-07 17:59
阅读 328·2024-09-27 16:59
阅读 466·2024-09-23 10:37
阅读 540·2024-09-14 16:58
阅读 334·2024-09-14 16:58
阅读 531·2024-08-29 18:47
阅读 811·2024-08-16 14:40