HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness

简介

本文研究视频中精确交换物体的问题，重点关注手部交互的物体，并给定一个用户提供的参考物体图像。尽管扩散模型在视频编辑方面取得了巨大的进展，但这些模型在处理手与物体交互的复杂性方面常常表现不佳，无法产生逼真的编辑效果，特别是当物体交换导致物体形状或功能发生变化时。为了弥补这一差距，我们提出了HOI-Swap，这是一个新颖的基于扩散的视频编辑框架，以自监督的方式进行训练。该框架分为两个阶段，第一阶段侧重于具有HOI感知的单帧物体交换；模型学习根据物体属性的变化调整交互模式，如手握。第二阶段将单帧编辑扩展到整个序列中；我们通过以下两种方式实现可控的运动对齐：（1）基于采样的运动点从第一阶段编辑的帧中扭曲新的序列，（2）以扭曲的序列为条件生成视频。全面的定性和定量评估表明，HOI-Swap明显优于现有方法，在逼真的HOI下提供高质量的视频编辑。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决视频中手与物体交互时进行精确物体交换的问题，特别是当物体交换导致形状或功能变化时，扩散模型往往无法产生逼真的编辑结果。
关键思路

该论文提出了一种新的基于扩散的视频编辑框架HOI-Swap，通过两个阶段的设计，实现了单帧和整个序列的物体交换，同时考虑了手与物体的交互，实现了对物体属性变化的调整和对运动对齐的控制。
其它亮点

论文进行了全面的定性和定量评估，证明了HOI-Swap明显优于现有方法，可以产生高质量、逼真的视频编辑结果。论文使用了自监督训练的方式，数据集使用了现有的视频数据集，并提供了开源代码。
相关研究

最近在这个领域中，还有一些相关的研究，如：《Deep Video Portraits》、《Everybody Dance Now》、《Deepfake Detection Challenge》等。

HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness

提问交流

提问交流