GenWarp: Single Image to Novel Views with Semantic-Preserving Generative Warping

2024年05月27日
  • 简介
    将单张图片生成新视角仍然是一项具有挑战性的任务,原因在于三维场景的复杂性以及现有多视角数据集的有限多样性,难以训练出一个模型。最近的研究将大规模的文本到图像(T2I)模型与单目深度估计(MDE)相结合,已经显示出处理野外图像的潜力。在这些方法中,输入视角被几何变换到新视角并估计深度图,然后通过T2I模型填充变形后的图像。然而,当将输入视角变形到新视角时,它们往往会遇到深度图噪声和语义细节丢失的问题。本文提出了一种新的方法,用于单次生成新视角,即保留语义的生成变形框架,通过将跨视角注意力与自注意力相结合,使T2I生成模型学习何时变形何时生成。我们的方法通过将生成模型与源视角图像条件化并结合几何变形信号来解决现有方法的局限性。定性和定量评估表明,我们的模型在域内和域外场景中均优于现有方法。项目页面可在https://GenWarp-NVS.github.io/上获得。
  • 图表
  • 解决问题
    论文旨在解决单张图像生成多个视角的问题,同时避免几何变换和语义信息的损失。
  • 关键思路
    论文提出了一种基于语义保持的生成式变形框架,通过将跨视图注意力与自注意力相结合,使得生成模型能够学习何时进行变形和何时进行生成。
  • 其它亮点
    论文通过实验验证了所提出方法在多个数据集上的优越性能,并提供了开源代码。该方法有望在计算机视觉领域中得到广泛应用。
  • 相关研究
    相关研究包括使用多视角图像进行训练的方法,以及将文本与图像结合的方法,如《Generative Adversarial Text to Image Synthesis》和《DALL-E: Creating Images from Text》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问