Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

2024年03月20日
  • 简介
    Sora是第一个在社会上引起广泛关注的大规模通用视频生成模型。自2024年2月由OpenAI推出以来,没有其他视频生成模型能够与Sora的性能或其支持广泛视频生成任务的能力相媲美。此外,已完全发布的视频生成模型只有少数,其中大多数是闭源的。为了填补这一空白,本文提出了一个新的多智能体框架Mora,它包含了几个高级视觉AI智能体,以复制Sora所展示的通用视频生成。特别是,Mora可以利用多个视觉智能体,并成功地模仿Sora在各种任务中的视频生成能力,例如(1)文本到视频生成,(2)文本条件图像到视频生成,(3)扩展生成的视频,(4)视频到视频编辑,(5)连接视频和(6)模拟数字世界。我们广泛的实验结果表明,Mora在各种任务中实现了接近Sora的性能。然而,当全面评估时,我们的工作与Sora之间存在明显的性能差距。总之,我们希望这个项目可以通过协作的AI智能体来指导未来视频生成的发展方向。
  • 作者讲解·3
  • 图表
  • 解决问题
    提出一个新的多智能体框架Mora,旨在解决视频生成领域中缺乏大规模通用模型的问题
  • 关键思路
    Mora框架结合了多个视觉AI智能体,能够在各种任务中成功模仿Sora的视频生成能力
  • 其它亮点
    Mora在各种任务中实现了接近于Sora的性能,包括文本到视频生成、文本条件图像到视频生成、视频扩展、视频编辑、视频连接和数字世界模拟。实验结果表明,Mora是一种有前途的方法,可以通过协作的AI智能体来提高视频生成的性能。
  • 相关研究
    最近的相关研究包括:Sora模型的研究,以及其他视频生成模型的研究,但大多数都是封闭源代码。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问