资讯专栏INFORMATION COLUMN

智谱 AI 开源视频生成模型CogVideoX:单张 4090 显卡即可推理

UCloud小助手 / 191人阅读

随着大型模型技术的持续发展,视频生成技术正逐步走向成熟。以Sora、Gen-3等闭源视频生成模型为代表的技术,正在重新定义行业的未来格局。

而近几个月,国产的AI视频生成模型也是层出不穷,像是快手可灵、字节即梦、智谱清影、Vidu、PixVerse V2 等。

就在近日,智谱AI秉承“以先进技术,服务全球开发者”的理念,宣布将与“清影”同源的视频生成模型——CogVideoX开源,以期让每一位开发者、每一家企业都能自由地开发属于自己的视频生成模型,从而推动整个行业的快速迭代与创新发展。

随着大型模型技术的持续发展,视频生成技术正逐步走向成熟。以Sora、Gen-3等闭源视频生成模型为代表的技术,正在重新定义行业的未来格局。

而近几个月,国产的AI视频生成模型也是层出不穷,像是快手可灵、字节即梦、智谱清影、Vidu、PixVerse V2 等。

就在近日,智谱AI秉承“以先进技术,服务全球开发者”的理念,宣布将与“清影”同源的视频生成模型——CogVideoX开源,以期让每一位开发者、每一家企业都能自由地开发属于自己的视频生成模型,从而推动整个行业的快速迭代与创新发展。

CogVideoX是什么?

CogVideoX是智谱AI最新推出的开源AI视频生成模型,与智谱AI的商业产品“清影”同源。

CogVideoX支持英文提示词,能生成6秒长、每秒8帧、分辨率为720*480的视频。模型推理需16—36GB显存,目前不支持量化推理和多卡推理。项目还包括3D Causal VAE组件用于视频重建,以及丰富的示例和工具,包括CLI/WEB Demo、在线体验、API接口示例和微调指南。

CogVideoX-2B的提示词上限为226个token,视频长度为6秒,帧率为8帧/秒,视频分辨率为720*480。现在主流的AI视频,全部都是闭源的,有一个说是开源的Open-Sora,说实话实测下来的效果也是差强人意。而CogVideoX的效果虽然和主流的闭源模型尚存在一些差距,但是总的来讲还是值得使用的。

简单来说,CogVideoX是一个能够将你的文字直接转换成视频的神奇工具。这次的CogVideoX-2B模型,不仅视频生成能力惊人,而且对电脑配置的要求并不高,让普通用户也能轻松上手。

模型亮点

CogVideoX-2B的亮点可不少。生成视频时,你需要准备18GB的GPU内存(如果使用SAT技术),而使用diffusers的话,则需要36GB,但据说这个要求很快就会得到优化。如果你想要自己动手调教这个模型,那么40GB的GPU内存是必不可少的。生成的视频长度为6秒,分辨率为720 * 480,帧率为8帧/秒。目前,它还不支持量化推理和多卡推理,但这并不影响它在视频生成技术上的重大意义。

专家 Transformer

使用VAE的编码器将视频压缩至潜在空间,然后将潜在空间分割成块并展开成长的序列嵌入z_vision。同时,我们使用T5,将文本输入编码为文本嵌入z_text,然后将z_text和z_vision沿序列维度拼接。拼接后的嵌入被送入专家Transformer块堆栈中处理。最后,我们反向拼接嵌入来恢复原始潜在空间形状,并使用VAE进行解码以重建视频。

Data

视频生成模型训练需筛选高质量视频数据,以学习真实世界动态。视频可能因人工编辑或拍摄问题而不准确。为此,团队开发了负面标签来识别和排除低质量视频,如过度编辑、运动不连贯、质量低下、讲座式、文本主导和屏幕噪音视频。通过video-llama训练的过滤器,我们标注并筛选了20,000个视频数据点。

同时,计算光流和美学分数,动态调整阈值,确保生成视频的质量。视频数据通常没有文本描述,需要转换为文本描述以供文本到视频模型训练。现有的视频字幕数据集字幕较短,无法全面描述视频内容。

团队提出了一种从图像字幕生成视频字幕的管道,并微调端到端的视频字幕模型以获得更密集的字幕。这种方法通过Panda70M模型生成简短字幕,使用CogView3模型生成密集图像字幕,然后使用GPT-4模型总结生成最终的短视频。

还微调了一个基于CogVLM2-Video和Llama 3的CogVLM2-Caption模型,使用密集字幕数据进行训练,以加速视频字幕生成过程。

实例展示

一艘精致的木制玩具船,桅杆和船帆上雕刻着复杂的图案,在模拟海浪的蓝色长毛绒地毯上平稳地滑行。船身漆成浓郁的棕色,并带有小窗户。地毯柔软而有质感,提供了一个完美的背景,就像一片广阔的海洋。船的周围环绕着各种玩具和儿童用品,暗示着一个充满童趣的环境。这个场景捕捉到了童年的天真和想象力,玩具船的旅程象征着在异想天开的室内环境中的无尽冒险。

镜头跟在一辆白色复古越野车后面,车顶有黑色行李架,越野车在陡峭的山坡上沿着松树环绕的陡峭土路快速行驶,轮胎上的尘土飞扬,阳光照在越野车上,越野车在土路上快速行驶,给整个场景投下了温暖的光辉。土路缓缓弯向远方,看不到其他车辆。道路两旁的树木都是红杉,还有零星的绿色植物。从后方看,汽车轻松地沿着弯道行驶,仿佛在崎岖的地形上行驶。土路本身被陡峭的丘陵和山脉环绕,头顶是晴朗的蓝天和飘渺的白云。

在一个饱受战争蹂躏的城市,废墟和残垣断壁诉说着满目疮痍,在这个令人心碎的背景下,一个凄美的特写镜头定格了一个年轻的女孩。她的脸上沾满了灰烬,无声地证明着周围的混乱。她的眼睛里闪烁着悲伤和坚韧,捕捉到了这个因冲突而失去天真世界的原始情感。

小结:智谱清影引领视频生成技术新潮流

CogVideoX-2B的开源,无疑是在视频生成技术上的一大步。它让普通人也能轻松制作出高质量的视频内容,而且开源这件事,让全球的开发者和研究者都能参与到这个技术的共享和进步中来。

而智谱清影的开源举措,不仅刷新了视频生成技术的边界,也为技术爱好者开辟了新的学习天地。当前,视频生成领域充满活力,似乎昭示着国内AI视频技术即将迈入全新时代。智谱清影的这一策略,无疑将其置于视频生成领域的先锋地位,未来的前景令人翘首以待。此次行动不仅是技术上的决断,更是对开源共享信念的践行,它传递出一个信息:技术的未来属于每一个愿意开源和分享的企业与个人。期待不久的将来,我们都能借助CogVideoX,创造出属于我们自己的视频生成奇迹。




文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/131147.html

相关文章

  • 智谱AI最新GLM-4-Plus上线开放平台!可视频通话

    GLM-4-Plus是智谱AI最新推出的旗舰级预训练语言模型,标志着公司在人工智能技术上取得了重大突破。相比前一代GLM-3模型,GLM-4-Plus在多个关键指标上实现了大幅提升,尤其是在语言理解能力、指令遵循能力和长文本处理能力方面。这些进步使得GLM-4-Plus在各类自然语言处理任务中的表现更加出色。主要更新语言基座模型 GLM-4-Plus:在语言理解、指令遵循、长文本处理等方面性能得到...

    miguel.jiang 评论0 收藏0
  • 买了一张4090显卡 除了打游戏还能做什么?

    在当今的图形处理领域,NVIDIA一直以其卓越的性能和创新的技术引领市场潮流。作为其最新的旗舰级显卡,GeForce RTX 4090一经发布便吸引了无数玩家的目光。作为最大的卖点,游戏性能以及功效无疑是这张显卡作为佼佼者的地方;于此同时,其关于视频编辑、3D建模、深度学习等专业领域的应用以及广泛的适用性和高效性能同时也是不可忽视的。视频编辑与后期制作RTX 4090不仅仅是一块游戏显卡,它在视频...

    UCloud小助手 评论0 收藏0
  • Mistral联合英伟达开源12B小模型:碾压Llama 3,单张4090可跑

    小模型,成为本周的AI爆点。与动辄上千亿参数的大模型相比,小模型的优势是显而易见的:它们不仅计算成本更低,训练和部署也更为便捷,可以满足计算资源受限、数据安全级别较高的各类场景。因此,在大笔投入大模型训练之余,像 OpenAI、谷歌等科技巨头也在积极训练好用的小模型。先是HuggingFace推出了小模型SmoLLM;OpenAI直接杀入小模型战场,发布了GPT-4o mini。GPT-4o mi...

    UCloud小助手 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<