- 简介Sora是第一个在社会上引起重视的大规模通用视频生成模型。自2024年2月OpenAI推出以来,没有其他视频生成模型能够与Sora的性能或其支持广泛的视频生成任务的能力相媲美。此外,已完全公开的视频生成模型很少,大多数是闭源的。为了填补这一空白,本文提出了一个新的多智能体框架Mora,它结合了几个先进的视觉AI智能体,以复制Sora所展示的通用视频生成。特别地,Mora可以利用多个视觉智能体,在各种任务中成功地模仿Sora的视频生成能力,例如(1)文本到视频生成,(2)文本条件图像到视频生成,(3)扩展生成的视频,(4)视频到视频编辑,(5)连接视频和(6)模拟数字世界。我们广泛的实验结果表明,Mora在各种任务中的表现接近于Sora。然而,当全面评估时,我们的工作与Sora之间存在明显的性能差距。总之,我们希望这个项目可以通过协作的AI智能体来指导未来视频生成的轨迹。
-
- 图表
- 解决问题提出一个新的多智能体框架Mora,以模仿OpenAI的Sora模型的视频生成能力,解决视频生成中的多样性和复杂性问题。
- 关键思路Mora框架通过多个高级视觉AI代理的协作,实现类似于Sora的多样化视频生成能力,包括文本到视频生成、文本条件图像到视频生成、视频扩展、视频编辑、视频连接和数字世界模拟。
- 其它亮点论文使用多个数据集进行了广泛的实验,并且在各种任务中展示了Mora框架接近于Sora模型的性能。但是,整体上仍存在一定的性能差距。论文提供了开源代码。
- 最近的相关研究包括:《Generative Adversarial Networks》、《Image-to-Image Translation with Conditional Adversarial Networks》、《DALL·E: Creating Images from Text》等。
- 3
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流