EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI

2023年12月26日
  • 简介
    在计算机视觉和机器人领域,实体代理人被期望能够探索其环境并执行人类指令。这需要能够根据第一人称视角观察到的场景全面理解三维场景,并将其上下文化为交互语言。然而,传统研究更注重从全局视角进行场景级别的输入和输出设置。为了填补这一空白,我们引入了EmbodiedScan,这是一个多模态、自我中心的三维感知数据集和基准,用于全面的三维场景理解。它包括超过5k个扫描,涵盖了1M个自我中心的RGB-D视图、1M个语言提示、160k个跨越760个类别的三维定向框,其中部分与LVIS部分对齐,以及密集的语义占用率,包括80个常见类别。在此数据库的基础上,我们介绍了一个名为Embodied Perceptron的基线框架。它能够处理任意数量的多模态输入,并展示了出色的三维感知能力,无论是在我们设置的两个系列基准中,即基本的三维感知任务和语言相关任务,还是在野外。代码、数据集和基准将在https://github.com/OpenRobotLab/EmbodiedScan上提供。
  • 图表
  • 解决问题
    本论文旨在解决计算机视觉和机器人领域中的一个问题,即如何实现具有多模态、自我中心、全面的3D场景理解能力的智能体。
  • 关键思路
    论文提出了一个名为EmbodiedScan的多模态、自我中心的3D感知数据集和基准测试,并基于此构建了一个名为Embodied Perceptron的基线框架,该框架可以处理任意数量的多模态输入,并展示出了卓越的3D感知能力。
  • 其它亮点
    EmbodiedScan数据集包含超过5k个扫描,1M个自我中心RGB-D视图,1M个语言提示,160k个3D定向框,涵盖760个类别,其中部分与LVIS相对应,并具有80个常见类别的密集语义占用。Embodied Perceptron框架在基本的3D感知任务和语言基础任务以及野外环境中展示出了卓越的3D感知能力。研究者还提供了数据集、代码和基准测试,可在https://github.com/OpenRobotLab/EmbodiedScan上获得。
  • 相关研究
    在这个领域中,还有一些相关的研究,例如:《PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation》、《3D Bounding Box Estimation Using Deep Learning and Geometry》、《3D Object Proposals for Accurate Object Class Detection》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论