SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model

2024年03月19日
  • 简介
    我们介绍了SceneScript,这是一种直接使用自回归、基于标记的方法,将完整场景模型作为结构化语言命令序列直接生成的方法。我们提出的场景表示受到了转换器和LLM的最新成功的启发,与更传统的方法不同,后者通常将场景描述为网格、体素网格、点云或辐射场。我们的方法使用场景语言编码器-解码器架构,直接从编码的视觉数据中推断出结构化语言命令集。为了训练SceneScript,我们生成并发布了一个大规模的合成数据集,称为Aria Synthetic Environments,包括10万个高质量的室内场景,具有逼真的、地面真实的渲染的自我中心场景漫游。我们的方法在建筑布局估计方面表现出了最先进的结果,在3D物体检测方面表现出了竞争力。最后,我们探讨了SceneScript的一个优点,即能够通过简单添加到结构化语言中来轻松适应新命令的能力,我们将其用于粗略的3D物体部分重建等任务。
  • 图表
  • 解决问题
    使用自然语言命令直接生成完整场景模型,解决了场景建模中的什么问题?这是一个新问题吗?
  • 关键思路
    论文提出了一种基于自然语言命令的场景表示方法,使用编码视觉数据的场景语言编码器-解码器架构直接推断结构化语言命令集。相比传统的场景表示方法,该方法具有新意。
  • 其它亮点
    论文提出的方法名为SceneScript,使用自然语言命令直接生成完整场景模型。为了训练SceneScript,作者生成了一个大规模的合成数据集Aria Synthetic Environments,其中包含100k个高质量室内场景。SceneScript在建筑布局估计方面取得了最先进的结果,在3D物体检测方面也有竞争力。此外,SceneScript具有优势,即可以通过简单添加结构化语言来适应新命令,作者在粗略3D物体部分重建任务中进行了演示。
  • 相关研究
    最近在该领域中,还有一些相关研究。例如,基于深度学习的3D场景重建方法,如DeepSDF、Occupancy Networks等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论