Pix2Gif: Motion-Guided Diffusion for GIF Generation

2024年03月07日
  • 简介
    我们提出了Pix2Gif,一种基于运动引导扩散模型的图像到GIF(视频)生成方法。我们通过将任务定义为由文本和运动大小提示驱动的图像翻译问题来解决这个问题,如teaser fig所示。为确保模型遵循运动引导,我们提出了一种新的运动引导变形模块,以在两种类型提示的条件下对源图像的特征进行空间变换。此外,我们引入了感知损失来确保变换后的特征图与目标图像保持在同一空间内,确保内容的一致性和连贯性。在模型训练之前,我们精心筛选了数据,从TGIF视频说明数据集中提取了连贯的图像帧,该数据集提供了关于主题的时间变化的丰富信息。在预训练之后,我们以零样本的方式将我们的模型应用于多个视频数据集。广泛的定性和定量实验证明了我们的模型的有效性——它不仅捕捉到文本中的语义提示,还捕捉到了运动引导中的空间提示。我们使用16xV100 GPU的单个节点训练了所有模型。代码、数据集和模型均已公开发布,网址为:https://hiteshk03.github.io/Pix2Gif/。
  • 图表
  • 解决问题
    Pix2Gif试图解决图像到GIF(视频)生成的问题,通过使用文本和运动大小提示来指导图像翻译。
  • 关键思路
    论文的关键思路是使用运动引导变形模块来空间转换源图像的特征,以确保模型遵循运动引导,并引入感知损失以确保转换后的特征与目标图像保持一致。
  • 其它亮点
    论文提出了一个新的方法,通过使用文本和运动大小提示来指导图像翻译,实现了从图像到GIF的生成。作者还提供了数据集和代码,展示了模型的有效性。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:1. Generative Flow for Video Prediction 2. Video Generation from Text 3. Video-to-Video Synthesis
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论