Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

简介

Sora是第一个在社会上引起广泛关注的大规模通用视频生成模型。自2024年2月由OpenAI推出以来，没有其他视频生成模型能够与Sora的性能或其支持广泛视频生成任务的能力相媲美。此外，已完全发布的视频生成模型只有少数，其中大多数是闭源的。为了填补这一空白，本文提出了一个新的多智能体框架Mora，它包含了几个高级视觉AI智能体，以复制Sora所展示的通用视频生成。特别是，Mora可以利用多个视觉智能体，并成功地模仿Sora在各种任务中的视频生成能力，例如（1）文本到视频生成，（2）文本条件图像到视频生成，（3）扩展生成的视频，（4）视频到视频编辑，（5）连接视频和（6）模拟数字世界。我们广泛的实验结果表明，Mora在各种任务中实现了接近Sora的性能。然而，当全面评估时，我们的工作与Sora之间存在明显的性能差距。总之，我们希望这个项目可以通过协作的AI智能体来指导未来视频生成的发展方向。
作者讲解·3
- 讲解视频
- 相关报道(3)
图表
解决问题

提出一个新的多智能体框架Mora，旨在解决视频生成领域中缺乏大规模通用模型的问题
关键思路

Mora框架结合了多个视觉AI智能体，能够在各种任务中成功模仿Sora的视频生成能力
其它亮点

Mora在各种任务中实现了接近于Sora的性能，包括文本到视频生成、文本条件图像到视频生成、视频扩展、视频编辑、视频连接和数字世界模拟。实验结果表明，Mora是一种有前途的方法，可以通过协作的AI智能体来提高视频生成的性能。
相关研究

最近的相关研究包括：Sora模型的研究，以及其他视频生成模型的研究，但大多数都是封闭源代码。

Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

提问交流

提问交流