- 简介本文研究视频中精确交换物体的问题,重点关注手部交互的物体,并给定一个用户提供的参考物体图像。尽管扩散模型在视频编辑方面取得了巨大的进展,但这些模型在处理手与物体交互的复杂性方面常常表现不佳,无法产生逼真的编辑效果,特别是当物体交换导致物体形状或功能发生变化时。为了弥补这一差距,我们提出了HOI-Swap,这是一个新颖的基于扩散的视频编辑框架,以自监督的方式进行训练。该框架分为两个阶段,第一阶段侧重于具有HOI感知的单帧物体交换;模型学习根据物体属性的变化调整交互模式,如手握。第二阶段将单帧编辑扩展到整个序列中;我们通过以下两种方式实现可控的运动对齐:(1)基于采样的运动点从第一阶段编辑的帧中扭曲新的序列,(2)以扭曲的序列为条件生成视频。全面的定性和定量评估表明,HOI-Swap明显优于现有方法,在逼真的HOI下提供高质量的视频编辑。
-
- 图表
- 解决问题论文旨在解决视频中手与物体交互时进行精确物体交换的问题,特别是当物体交换导致形状或功能变化时,扩散模型往往无法产生逼真的编辑结果。
- 关键思路该论文提出了一种新的基于扩散的视频编辑框架HOI-Swap,通过两个阶段的设计,实现了单帧和整个序列的物体交换,同时考虑了手与物体的交互,实现了对物体属性变化的调整和对运动对齐的控制。
- 其它亮点论文进行了全面的定性和定量评估,证明了HOI-Swap明显优于现有方法,可以产生高质量、逼真的视频编辑结果。论文使用了自监督训练的方式,数据集使用了现有的视频数据集,并提供了开源代码。
- 最近在这个领域中,还有一些相关的研究,如:《Deep Video Portraits》、《Everybody Dance Now》、《Deepfake Detection Challenge》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流