Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts

2024年03月13日
  • 简介
    尽管图像到视频生成技术近来有所发展,但更好的可控性和局部动画的研究却少之又少。现有的图像到视频方法往往没有局部感知,会移动整个场景。然而,人类艺术家可能需要控制不同物体或区域的运动。此外,当前的图像到视频方法不仅需要用户描述目标动作,还需要提供冗余的详细帧内容描述。这两个问题阻碍了当前图像到视频工具的实际应用。在本文中,我们提出了一个实用的框架,名为Follow-Your-Click,通过简单的用户点击(用于指定移动对象)和短动作提示(用于指定如何移动)实现图像动画。技术上,我们提出了第一帧遮罩策略,显著提高了视频生成质量,并配备了一个短动作提示数据集的运动增强模块,以改善我们模型的短提示跟随能力。为了进一步控制运动速度,我们提出了基于光流的运动大小控制,以更精确地控制目标运动的速度。我们的框架比先前的方法具有更简单但更精确的用户控制和更好的生成性能。与包括商业工具和研究方法在内的7个基准测试进行了广泛的实验,涉及8个指标,结果表明我们的方法优越性。项目页面:https://follow-your-click.github.io/
  • 图表
  • 解决问题
    本论文旨在解决现有图像到视频生成方法中存在的局部控制和动画不足的问题,提出一种名为Follow-Your-Click的实用框架,通过简单的用户点击和短暂的运动提示实现图像动画生成。
  • 关键思路
    论文提出了第一帧遮罩策略和运动增强模块,配备短运动提示数据集,以提高模型的短提示跟随能力,并提出了基于流的运动大小控制,以更精确地控制目标运动速度。
  • 其它亮点
    论文的亮点包括:1.使用简单的用户点击和短暂的运动提示实现图像动画生成;2.提出第一帧遮罩策略和运动增强模块,以提高模型的生成效果;3.提出基于流的运动大小控制,以更精确地控制目标运动速度;4.通过与7个基线模型的比较,证明了本方法的优越性。
  • 相关研究
    最近在这个领域中的相关研究包括:1. Deep Video Portraits;2. Everybody Dance Now;3. First Order Motion Model for Image Animation;4. Liquid Warping GAN;5. Video Generation from Single Semantic Label Map;6. X2Face;7. Generative Adversarial Networks for Video Generation。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论