DragAnything: Motion Control for Anything using Entity Representation

简介

我们介绍了DragAnything，它利用实体表示实现了对可控视频生成中任何物体的运动控制。与现有的运动控制方法相比，DragAnything具有几个优点。首先，基于轨迹的方法更加用户友好，当获取其他指导信号（例如，掩模、深度图）需要耗费大量人力时。用户只需要在交互过程中画一条线（轨迹）即可。其次，我们的实体表示作为一个开放领域的嵌入能够表示任何对象，实现对不同实体的运动控制，包括背景。最后，我们的实体表示允许同时和独立地对多个对象进行运动控制。广泛的实验表明，我们的DragAnything在FVD、FID和用户研究方面实现了最先进的性能，特别是在物体运动控制方面，我们的方法在人类投票中超过了以前的方法（例如DragNUWA）26%。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在介绍DragAnything，一种利用实体表示实现任何对象运动控制的方法。该方法相较于现有的运动控制方法具有哪些优势？
关键思路

DragAnything利用轨迹为基础的交互方式，将实体表示为开放域嵌入，实现对各种物体的运动控制，包括背景。同时，DragAnything还允许多个对象的同时和独立运动控制。
其它亮点

论文实验表明，DragAnything在FVD、FID和用户研究方面均达到了最先进的性能水平，特别是在物体运动控制方面，超过了之前的方法（如DragNUWA）26%的人类投票。
相关研究

在这个领域中，最近的相关研究包括DragNUWA、MaskGuided和DepthGuided等。

DragAnything: Motion Control for Anything using Entity Representation

提问交流

提问交流