MotionEdit: Benchmarking and Learning Motion-Centric Image Editing

向作者提问

NEW

简介

我们推出了MotionEdit，这是一个面向以动作为核心的图像编辑任务的全新数据集——该任务旨在修改主体的动作与交互行为，同时保持其身份、结构以及物理上的合理性。不同于现有的仅关注静态外观变化或仅包含稀疏且低质量动作编辑的图像编辑数据集，MotionEdit提供了高保真的图像对，这些图像对是从连续视频中提取并验证的真实动作变换结果。这一新任务不仅在科学上具有挑战性，也在实际应用中意义重大，可推动诸如帧控视频生成和动画制作等下游应用的发展。为评估模型在这一新任务上的表现，我们提出了MotionEdit-Bench，一个专注于动作导向编辑的基准测试平台，通过生成式、判别式以及基于偏好的多种指标来衡量模型性能。基准测试结果显示，当前最先进的基于扩散模型的编辑方法在动作编辑任务上仍面临巨大挑战。为弥补这一差距，我们提出了MotionNFT（动作引导的负样本感知微调）框架，这是一种后训练方法，通过计算输入图像与模型编辑后图像之间的动作流与真实动作流的匹配程度，生成动作对齐奖励，从而引导模型实现更准确的动作变换。在FLUX.1 Kontext和Qwen-Image-Edit上的大量实验表明，MotionNFT在不牺牲通用编辑能力的前提下，显著提升了两个基础模型在动作编辑任务中的编辑质量和动作保真度，充分验证了其有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决现有图像编辑方法在处理以动作为核心的编辑任务时的不足，即如何在保持主体身份、结构和物理合理性的前提下，准确修改人物的动作与交互。这一问题尚未被充分探索，尤其在高保真、连续运动变化的场景中，现有数据集和模型存在稀疏、低质量或静态编辑偏重的问题，因此是一个新兴且具有挑战性的问题。
关键思路

提出MotionEdit——首个专注于高保真运动变换的图像编辑数据集，并构建MotionEdit-Bench评估基准，系统定义了运动编辑任务。为提升模型性能，设计MotionNFT框架：通过计算编辑前后图像间的光流与真实运动的对齐程度，生成运动对齐奖励信号，指导模型进行负感知微调，在不损害通用编辑能力的前提下增强运动保真度。该思路将强化学习中的奖励机制引入图像编辑后训练，具有新颖性。
其它亮点

1) MotionEdit数据集从连续视频中提取并验证高质量运动图像对，支持真实动作变换；2) MotionEdit-Bench采用生成、判别与人类偏好多维指标评估，更全面反映模型能力；3) 实验在FLUX.1 Kontext和Qwen-Image-Edit上验证MotionNFT的有效性，显著提升运动编辑质量；4) 方法无需修改模型架构，具备良好可扩展性；5) 数据集与基准有望推动运动感知编辑发展，代码与数据预计开源（文中暗示）。未来可探索视频一致性编辑与三维动作引导生成。
相关研究

1. AnimateDiff: Animate Your Images with Structural Priors 2. DragGAN: Interactive Point Editing of Images with Dragging 3. MagicDrive: Semantic-to-Driving Generation via Occupancy Pre-training 4. Tune-A-Video: One-Shot Tuning of Image-to-Video Diffusion Models 5. InstructPix2Pix: Learning to Follow Image Editing Instructions

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问