ReStyle3D: Scene-Level Appearance Transfer with Semantic Correspondences

2025年02月14日
  • 简介
    我们介绍了ReStyle3D,这是一种新颖的框架,可以从单张风格图像将场景级别的外观迁移到由多视图表示的真实世界场景中。该方法结合了显式的语义对应关系与多视图一致性,以实现精确且连贯的风格化效果。与传统的全局应用参考风格的风格化方法不同,ReStyle3D使用开放词汇分割来建立风格图像和真实世界图像之间的密集实例级对应关系,确保每个对象都用语义匹配的纹理进行风格化。首先,它通过扩散模型中的无训练语义注意力机制将风格迁移到单个视图上;然后,通过一个由单目深度和像素级对应关系引导的学习型变形和优化网络,将风格化效果扩展到其他视图。实验表明,ReStyle3D在结构保持、感知风格相似性和多视图一致性方面始终优于先前的方法。用户研究进一步验证了其生成逼真且语义忠实结果的能力。我们的代码、预训练模型和数据集将公开发布,以支持室内设计、虚拟布景和3D一致风格化等新应用。
  • 图表
  • 解决问题
    该论文试图解决从单张风格图像到多视角现实场景的场景级外观迁移问题。这是一个新问题,因为现有的大多数风格迁移方法仅限于单个图像的全局风格化,无法处理多视角场景的一致性和语义匹配。
  • 关键思路
    ReStyle3D的关键思路是结合显式语义对应和多视角一致性来实现精确且连贯的风格化。它使用开放词汇分割建立风格图像与真实世界图像之间的密集实例级对应关系,确保每个对象都能用语义匹配的纹理进行风格化。此外,它利用扩散模型中的训练自由语义注意力机制进行单视图风格化,并通过学习的翘曲和细化网络将风格化扩展到其他视图,同时由单目深度和像素级对应关系引导。
  • 其它亮点
    实验设计包括结构保持、感知风格相似性和多视角一致性等指标的评估。作者还进行了用户研究以验证其生成结果的逼真度和语义保真度。该方法在多个基准测试中优于先前的方法。此外,作者承诺公开代码、预训练模型和数据集,支持未来在室内设计、虚拟布置和3D一致风格化等方面的应用。
  • 相关研究
    最近的相关研究包括:1. 使用GANs进行图像到图像的翻译;2. 多视角几何在计算机视觉中的应用;3. 深度学习在语义分割中的进展。相关论文如《Multi-View Geometry in Computer Vision》、《Image-to-Image Translation with Conditional Adversarial Networks》以及《Deep Learning for Semantic Segmentation》等探讨了类似的技术挑战和解决方案。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论