InstaDrag: Lightning Fast and Accurate Drag-based Image Editing Emerging from Videos

2024年05月22日
  • 简介
    准确性和速度在图像编辑任务中至关重要。Pan等人引入了一种基于拖动的图像编辑框架,利用生成对抗网络(GANs)实现像素级控制。随后的一系列研究通过利用大规模扩散模型增强了这个框架的通用性。然而,这些方法通常需要过长的处理时间(每个编辑超过1分钟)和低成功率。为了直接解决这些问题,我们提出了InstaDrag,一种快速方法,可以在约1秒内实现高质量的基于拖动的图像编辑。与大多数先前的方法不同,我们重新定义了基于拖动的编辑为条件生成任务,在推理过程中消除了耗时的潜在优化或基于梯度的引导的需要。此外,我们的管道设计允许我们在大规模成对视频帧上训练模型,这些视频帧包含丰富的运动信息,如物体平移、姿势和方向的变化、缩放等。通过从视频中学习,我们的方法可以在准确性和一致性方面显著优于以前的方法。尽管仅在视频上进行训练,我们的模型在执行训练数据中未出现的局部形状变形(如拉长头发,扭曲彩虹等)方面具有很好的泛化能力。在基准数据集上进行了广泛的定性和定量评估,证实了我们方法的优越性。代码和模型将在https://github.com/magic-research/InstaDrag上发布。
  • 图表
  • 解决问题
    本论文旨在解决图像编辑任务中处理速度慢和成功率低的问题,提出了一种快速高质量的基于拖拽的图像编辑方法。
  • 关键思路
    本论文将拖拽编辑重新定义为条件生成任务,消除了推理过程中梯度引导或潜在优化所需的时间消耗,并利用大规模视频帧对模型进行训练,从而显著提高了准确性和一致性。
  • 其它亮点
    本论文的亮点包括:1.快速高质量的基于拖拽的图像编辑方法;2.将拖拽编辑重新定义为条件生成任务,消除了推理过程中梯度引导或潜在优化所需的时间消耗;3.利用大规模视频帧对模型进行训练,显著提高了准确性和一致性;4.模型能够在未见过的数据上进行形状变形,具有很好的泛化性能。
  • 相关研究
    在这个领域中,最近的相关研究包括Pan等人提出的基于GAN的拖拽编辑框架以及利用大规模扩散模型提高其普适性的后续研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论