Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions

2024年01月03日
  • 简介
    这篇文章介绍了一种新的视频生成模型Moonshot,它可以同时基于图像和文本等多模态输入进行条件生成。该模型基于一个核心模块,称为多模态视频块(MVB),该模块由传统的时空层组成,用于表示视频特征,并且还包含一个解耦的交叉注意力层,用于处理图像和文本输入以进行外观调节。此外,作者们还精心设计了模型架构,使其可以选择性地与预训练的图像ControlNet模块集成,以进行几何视觉条件,而无需与先前的方法相比需要额外的训练开销。实验表明,Moonshot具有多种多模态调节机制,相比现有模型,它在视觉质量和时间一致性方面都有显着的提高。此外,该模型可以轻松地重新用于各种生成应用,例如个性化视频生成、图像动画和视频编辑,揭示了它作为可控视频生成的基本架构的潜力。该模型将在https://github.com/salesforce/LAVIS上公开发布。
  • 图表
  • 解决问题
    Moonshot论文旨在解决现有视频生成模型在控制视觉外观和几何结构方面的局限性,通过同时使用图像和文本多模态输入来实现这一目标。
  • 关键思路
    论文提出了一种名为多模态视频块(MVB)的核心模块,它由传统的时空层和一个分离的交叉注意层组成,用于表示视频特征和外观调节。此外,该模型可以与预训练的图像ControlNet模块集成,以实现几何结构的视觉调节。
  • 其它亮点
    Moonshot模型通过多模态调节机制,在视觉质量和时间一致性方面相对于现有模型取得了显著的改进。该模型可以用于个性化视频生成、图像动画和视频编辑等多种生成应用,并且可以作为可控视频生成的基本架构。模型代码将在GitHub上公开。
  • 相关研究
    最近的相关研究包括但不限于:《Generative Adversarial Networks》、《Video Generation from Text》、《Text-to-Image Generation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论