Repurposing 3D Generative Model for Autoregressive Layout Generation

向作者提问

NEW

简介

我们提出了LaviGen——一种将3D生成模型重新用于3D布局生成的框架。与以往从文本描述中推断物体布局的方法不同，LaviGen直接在原生3D空间中运行，将布局生成建模为一个自回归过程，显式地刻画物体之间的几何关系与物理约束，从而生成连贯且符合物理规律的3D场景。为进一步提升该生成过程，我们设计了一种改进的3D扩散模型：该模型深度融合场景、物体及指令三类信息，并采用双引导式自展开蒸馏机制（dual-guidance self-rollout distillation），以显著提高生成效率与空间精度。在LayoutVLM基准上的大量实验表明，LaviGen在3D布局生成任务中性能显著优于现有方法，其生成结果的物理合理性较当前最优方法提升19%，计算速度提升65%。我们的代码已开源，地址为：https://github.com/fenghora/LaviGen。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统3D布局生成方法依赖文本到布局的映射，难以建模真实物理约束与几何关系，导致生成场景常缺乏物理合理性（如悬浮、穿透、不稳结构）；LaviGen旨在解决‘如何在原生3D空间中直接、自回归地生成物理可支撑、空间关系一致的室内布局’这一长期被忽视的核心问题——这是首次将3D生成模型显式重定向为3D布局生成器，而非仅作为渲染或补全工具。
关键思路

提出LaviGen框架：1）摒弃文本中间表示，直接在3D体素/点云空间进行自回归布局建模，显式编码物体间相对位姿、支撑关系、碰撞避免等几何先验；2）设计适配的3D扩散模型，融合场景上下文、对象语义和指令条件，并引入‘双引导自回滚蒸馏’（dual-guidance self-rollout distillation）机制——用教师模型在推理时动态生成多步几何约束反馈，蒸馏至学生模型，显著提升空间精度与推理效率。
其它亮点

在LayoutVLM基准上实现SOTA：物理合理性+19%，推理速度+65%；实验设计严谨：包含消融研究（验证几何关系建模、双引导蒸馏、3D空间建模的独立贡献）、跨场景泛化测试（不同房间类型/家具组合）、物理仿真验证（PyBullet碰撞与稳定性检测）；开源全部代码与预训练模型（GitHub: https://github.com/fenghora/LaviGen）；值得深入的方向包括：将布局生成与3D重建/编辑联合优化、扩展至动态布局（如人-物交互时序建模）、构建更大规模物理感知3D布局数据集。
相关研究

1) LayoutDiffusion (CVPR 2023) —— 基于2D布局扩散的文本驱动方法；2) SceneLLM (NeurIPS 2023) —— 大语言模型驱动的场景图生成与布局规划；3) 3D-BEVLayout (ICCV 2023) —— 使用鸟瞰视图编码的3D布局预测；4) Physically-Aware Layout Generation (ECCV 2022) —— 基于能量函数的物理约束优化，但非生成式；5) LGM (SIGGRAPH 2023) —— 高质量3D生成模型，但未用于布局任务。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问