Repurposing 3D Generative Model for Autoregressive Layout Generation

2026年04月17日
  • 简介
    我们提出了LaviGen——一种将3D生成模型重新用于3D布局生成的框架。与以往从文本描述中推断物体布局的方法不同,LaviGen直接在原生3D空间中运行,将布局生成建模为一个自回归过程,显式地刻画物体之间的几何关系与物理约束,从而生成连贯且符合物理规律的3D场景。为进一步提升该生成过程,我们设计了一种改进的3D扩散模型:该模型深度融合场景、物体及指令三类信息,并采用双引导式自展开蒸馏机制(dual-guidance self-rollout distillation),以显著提高生成效率与空间精度。在LayoutVLM基准上的大量实验表明,LaviGen在3D布局生成任务中性能显著优于现有方法,其生成结果的物理合理性较当前最优方法提升19%,计算速度提升65%。我们的代码已开源,地址为:https://github.com/fenghora/LaviGen。
  • 作者讲解
  • 图表
  • 解决问题
    传统3D布局生成方法依赖文本到布局的映射,难以建模真实物理约束与几何关系,导致生成场景常缺乏物理合理性(如悬浮、穿透、不稳结构);LaviGen旨在解决‘如何在原生3D空间中直接、自回归地生成物理可支撑、空间关系一致的室内布局’这一长期被忽视的核心问题——这是首次将3D生成模型显式重定向为3D布局生成器,而非仅作为渲染或补全工具。
  • 关键思路
    提出LaviGen框架:1)摒弃文本中间表示,直接在3D体素/点云空间进行自回归布局建模,显式编码物体间相对位姿、支撑关系、碰撞避免等几何先验;2)设计适配的3D扩散模型,融合场景上下文、对象语义和指令条件,并引入‘双引导自回滚蒸馏’(dual-guidance self-rollout distillation)机制——用教师模型在推理时动态生成多步几何约束反馈,蒸馏至学生模型,显著提升空间精度与推理效率。
  • 其它亮点
    在LayoutVLM基准上实现SOTA:物理合理性+19%,推理速度+65%;实验设计严谨:包含消融研究(验证几何关系建模、双引导蒸馏、3D空间建模的独立贡献)、跨场景泛化测试(不同房间类型/家具组合)、物理仿真验证(PyBullet碰撞与稳定性检测);开源全部代码与预训练模型(GitHub: https://github.com/fenghora/LaviGen);值得深入的方向包括:将布局生成与3D重建/编辑联合优化、扩展至动态布局(如人-物交互时序建模)、构建更大规模物理感知3D布局数据集。
  • 相关研究
    1) LayoutDiffusion (CVPR 2023) —— 基于2D布局扩散的文本驱动方法;2) SceneLLM (NeurIPS 2023) —— 大语言模型驱动的场景图生成与布局规划;3) 3D-BEVLayout (ICCV 2023) —— 使用鸟瞰视图编码的3D布局预测;4) Physically-Aware Layout Generation (ECCV 2022) —— 基于能量函数的物理约束优化,但非生成式;5) LGM (SIGGRAPH 2023) —— 高质量3D生成模型,但未用于布局任务。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问