Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, Christian Theobalt
[Max Planck Institute for Informatics & MIT CSAIL & Google AR/VR,]
拖动GAN: 生成式图像流形上的交互式点操纵
要点:
-
动机:为了实现对生成对抗网络(GAN)进行灵活、精确的控制,以满足用户对图像内容的需求。现有方法通过手动标注的训练数据或先验的3D模型来获得GAN的可控性,但这些方法往往缺乏灵活性、精确性和普适性。本文探索了一种控制GAN的新方式,即以用户交互的方式将图像的任意点“拖拽”到目标位置,实现对姿态、形状、表情和布局的精确控制。 -
方法:提出DragGAN方法,主要由两个组件组成:1) 基于特征的运动监督,驱动操作点向目标位置移动;2) 新的点追踪方法,利用鉴别性生成器特征来定位操作点的位置。通过DragGAN,用户可以通过对图像进行点级别的精确操作,从而操控各种类别(动物、汽车、人物、风景等)的姿态、形状、表情和布局。这些操作在GAN的学习生成图像空间中进行,因此即使在挑战性的场景下,如产生遮挡内容和变形形状,也能产生逼真的输出。 -
优势:DragGAN在图像编辑和点追踪任务中优于之前的方法,通过对生成图像进行点级操作,能产生精确的图像变形,具有交互性能。所提出的方法不依赖于领域特定的建模或辅助网络,展示了一个通用的框架。这一方法的创新之处在于使用潜编码的优化来将多个操作点逐步移动到目标位置,并通过点追踪过程准确跟踪操作点的轨迹。两个组件利用GAN中间特征图的鉴别性质,实现像素级的图像变形和交互性能。
DragGAN是一种交互式的、基于点操作的图像编辑方法,通过对生成图像的点级操作实现精确控制,同时保持逼真的图像特征。
https://arxiv.org/abs/2305.10973
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢