ConsistI2V: Enhancing Visual Consistency for Image-to-Video Generation

2024年02月06日
  • 简介
    图像到视频(I2V)生成旨在使用初始帧(以及文本提示)创建视频序列。I2V生成中的一个重要挑战是在整个视频中保持视觉一致性:现有方法常常难以保持主题、背景和风格的完整性,同时确保视频叙述中的流畅和逻辑性。为了缓解这些问题,我们提出了ConsistI2V,这是一种基于扩散的方法,用于增强I2V生成的视觉一致性。具体而言,我们引入了(1)对第一帧的时空注意力,以保持空间和运动一致性,(2)从第一帧的低频带中进行噪声初始化,以增强布局一致性。这两种方法使ConsistI2V能够生成高度一致的视频。我们还将所提出的方法扩展到自回归长视频生成和摄像机运动控制中,以展示它们提高一致性的潜力。为了验证我们的方法的有效性,我们提出了I2V-Bench,这是一个全面的I2V生成评估基准。我们的自动和人工评估结果证明了ConsistI2V相对于现有方法的优越性。
  • 图表
  • 解决问题
    ConsistI2V试图解决图像到视频生成中的视觉一致性问题,即如何在整个视频中保持主体、背景和风格的一致性。这是一个新问题。
  • 关键思路
    ConsistI2V提出了两种方法来增强视觉一致性:对第一帧进行时空注意力以保持空间和运动一致性,从第一帧的低频带中初始化噪声以增强布局一致性。
  • 其它亮点
    论文提出了一个基于扩散的方法来增强I2V生成的视觉一致性,并提出了一个评估基准I2V-Bench。实验结果表明,ConsistI2V在自动和人工评估方面均优于现有方法。论文还将所提出的方法扩展到自回归长视频生成和相机运动控制中。
  • 相关研究
    最近的相关研究包括:Image-to-Video Generation Using Few-Shot Paradigm, Video Generation from Text and Beyond, Deep Video Generation, Video Generation from Single Semantic Label Map,等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论