DragAnything: Motion Control for Anything using Entity Representation

简介

我们介绍了DragAnything，它利用实体表示来实现对可控视频生成中任何物体的运动控制。与现有的运动控制方法相比，DragAnything具有几个优点。首先，基于轨迹的方法更加用户友好，因为获取其他指导信号（例如，掩模、深度图）需要耗费大量时间。用户只需要在交互过程中画一条线（轨迹）即可。其次，我们的实体表示作为一个开放域嵌入，能够表示任何对象，实现对多样化实体的运动控制，包括背景。最后，我们的实体表示允许同时且独立地控制多个物体的运动。广泛的实验表明，我们的DragAnything在FVD、FID和用户研究方面实现了最先进的性能，特别是在物体运动控制方面，我们的方法在人类投票方面超过了以前的方法（例如DragNUWA）26%。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在通过实体表示来实现对生成视频中的任何对象的运动控制，以解决现有运动控制方法的问题。
关键思路

论文的关键思路是利用轨迹来进行运动控制，并使用实体表示作为开放域嵌入来表示任何对象，从而实现多个对象的同时和独立运动控制。
其它亮点

论文的实验结果表明，DragAnything在FVD、FID和用户研究方面均达到了最先进的性能，尤其是在对象运动控制方面，比之前的方法（如DragNUWA）在人类投票方面提高了26%。
相关研究

在最近的相关研究中，一些论文如“Learning to Control Object Motion from Videos”，“Unsupervised Learning of Object Keypoints for Perception and Control”等探讨了类似的问题和解决方案。

DragAnything: Motion Control for Anything using Entity Representation

提问交流

提问交流