- 简介Sora是第一个在社会上引起广泛关注的大规模通用视频生成模型。自2024年2月由OpenAI推出以来,没有其他视频生成模型能够与Sora的性能或其支持广泛视频生成任务的能力相媲美。此外,已完全发布的视频生成模型只有少数,其中大多数是闭源的。为了填补这一空白,本文提出了一个新的多智能体框架Mora,它包含了几个高级视觉AI智能体,以复制Sora所展示的通用视频生成。特别是,Mora可以利用多个视觉智能体,并成功地模仿Sora在各种任务中的视频生成能力,例如(1)文本到视频生成,(2)文本条件图像到视频生成,(3)扩展生成的视频,(4)视频到视频编辑,(5)连接视频和(6)模拟数字世界。我们广泛的实验结果表明,Mora在各种任务中实现了接近Sora的性能。然而,当全面评估时,我们的工作与Sora之间存在明显的性能差距。总之,我们希望这个项目可以通过协作的AI智能体来指导未来视频生成的发展方向。
-
- 图表
- 解决问题提出一个新的多智能体框架Mora,旨在解决视频生成领域中缺乏大规模通用模型的问题
- 关键思路Mora框架结合了多个视觉AI智能体,能够在各种任务中成功模仿Sora的视频生成能力
- 其它亮点Mora在各种任务中实现了接近于Sora的性能,包括文本到视频生成、文本条件图像到视频生成、视频扩展、视频编辑、视频连接和数字世界模拟。实验结果表明,Mora是一种有前途的方法,可以通过协作的AI智能体来提高视频生成的性能。
- 最近的相关研究包括:Sora模型的研究,以及其他视频生成模型的研究,但大多数都是封闭源代码。
- 3
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流