Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

简介

Sora是第一个在社会上引起重视的大规模通用视频生成模型。自2024年2月OpenAI推出以来，没有其他视频生成模型能够与Sora的性能或其支持广泛的视频生成任务的能力相媲美。此外，已完全公开的视频生成模型很少，大多数是闭源的。为了填补这一空白，本文提出了一个新的多智能体框架Mora，它结合了几个先进的视觉AI智能体，以复制Sora所展示的通用视频生成。特别地，Mora可以利用多个视觉智能体，在各种任务中成功地模仿Sora的视频生成能力，例如(1)文本到视频生成，(2)文本条件图像到视频生成，(3)扩展生成的视频，(4)视频到视频编辑，(5)连接视频和(6)模拟数字世界。我们广泛的实验结果表明，Mora在各种任务中的表现接近于Sora。然而，当全面评估时，我们的工作与Sora之间存在明显的性能差距。总之，我们希望这个项目可以通过协作的AI智能体来指导未来视频生成的轨迹。
作者讲解·3
- 讲解视频
- 相关报道(3)
图表
解决问题

提出一个新的多智能体框架Mora，以模仿OpenAI的Sora模型的视频生成能力，解决视频生成中的多样性和复杂性问题。
关键思路

Mora框架通过多个高级视觉AI代理的协作，实现类似于Sora的多样化视频生成能力，包括文本到视频生成、文本条件图像到视频生成、视频扩展、视频编辑、视频连接和数字世界模拟。
其它亮点

论文使用多个数据集进行了广泛的实验，并且在各种任务中展示了Mora框架接近于Sora模型的性能。但是，整体上仍存在一定的性能差距。论文提供了开源代码。
相关研究

最近的相关研究包括：《Generative Adversarial Networks》、《Image-to-Image Translation with Conditional Adversarial Networks》、《DALL·E: Creating Images from Text》等。

Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

提问交流

提问交流