Holodeck: Language Guided Generation of 3D Embodied AI Environments

Yue Yang ,
Fan-Yun Sun ,
Luca Weihs ,
Eli VanderBilt ,
Alvaro Herrasti ,
Winson Han ,
Jiajun Wu ,
Nick Haber ,
Ranjay Krishna ,
Lingjie Liu ,
Chris Callison-Burch ,
Mark Yatskar ,
Aniruddha Kembhavi ,
Christopher Clark
2023年12月14日
  • 简介
    3D模拟环境在具身人工智能中扮演着至关重要的角色,但它们的创建需要专业知识和广泛的手动工作,限制了它们的多样性和范围。为了缓解这种限制,我们提出了Holodeck,这是一个系统,可以完全自动地生成与用户提供的提示相匹配的3D环境。Holodeck可以生成多样化的场景,例如游戏厅、温泉和博物馆,可以调整设计风格,并可以捕捉复杂查询的语义,例如“为养猫的研究员提供公寓”和“星球大战迷教授的办公室”。Holodeck利用大型语言模型(GPT-4)对场景可能的外观具有常识知识,并使用Objaverse的大量3D资产来填充场景中的各种对象。为了解决正确定位对象的挑战,我们提示GPT-4生成对象之间的空间关系约束,然后优化布局以满足这些约束。我们的大规模人类评估表明,注释员在住宅场景中更喜欢Holodeck而不是手动设计的程序化基线,并且Holodeck可以为各种场景类型生成高质量的输出。我们还展示了Holodeck在具身人工智能中的一个令人兴奋的应用,训练代理人在像音乐室和日托中心这样的新场景中导航,而无需人工构建数据,这是发展通用具身代理人的重要一步。
  • 图表
  • 解决问题
    Holodeck旨在解决3D模拟环境的创建需要大量人工操作和专业知识的问题,限制了其多样性和范围。该论文试图通过全自动生成3D环境来缓解这个限制。
  • 关键思路
    Holodeck利用大型语言模型和3D资源库自动生成符合用户需求的3D环境,包括复杂的语义要求和空间关系限制,并通过优化布局来放置对象。
  • 其它亮点
    Holodeck在住宅场景中的人工评估中获得了较高的评分,并且可以为不同类型的场景生成高质量的输出。此外,Holodeck在Embodied AI中的应用也非常有趣,可以训练代理在新颖的场景中导航而无需人工构建数据。
  • 相关研究
    最近在这个领域中,也有一些相关的研究,例如GAN生成3D环境的研究,以及使用语言模型生成场景的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论