PerlDiff: Controllable Street View Synthesis Using Perspective-Layout Diffusion Models

简介

可控生成被认为是解决3D数据注释挑战的一种潜在重要方法，而在自动驾驶数据生产的背景下，这种可控生成的精度尤为重要。现有的方法侧重于将各种生成信息整合到控制输入中，利用GLIGEN或ControlNet等框架，在可控生成方面产生了可观的成果。然而，这些方法本质上将生成性能限制在预定义网络架构的学习能力范围内。在本文中，我们探讨了控制信息的整合，并引入了PerlDiff（Perspective-Layout Diffusion Models），这是一种有效的街景图像生成方法，充分利用了透视3D几何信息。我们的PerlDiff利用3D几何先验知识来指导网络学习过程中的街景图像生成，实现了精确的对象级控制，从而产生了更加稳健和可控的输出。此外，与其他布局控制方法相比，它表现出更好的可控性。实证结果证明，我们的PerlDiff显着提高了NuScenes和KITTI数据集上生成的精度。我们的代码和模型可在https://github.com/LabShuHangGU/PerlDiff上公开获取。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

本文旨在解决3D数据标注的挑战，提出一种基于PerlDiff模型的街景图像生成方法，以实现更精确的对象级控制。

关键思路

PerlDiff模型利用3D几何先验知识来指导街景图像的生成，提高了生成的精度和可控性。

其它亮点

实验结果表明，PerlDiff模型在NuScenes和KITTI数据集上都具有显著的优势，代码和模型已经公开。

PerlDiff: Controllable Street View Synthesis Using Perspective-Layout Diffusion Models

提问交流

提问交流