- 简介在计算机视觉和机器人领域,实体代理人被期望能够探索其环境并执行人类指令。这需要能够根据第一人称视角观察到的场景全面理解三维场景,并将其上下文化为交互语言。然而,传统研究更注重从全局视角进行场景级别的输入和输出设置。为了填补这一空白,我们引入了EmbodiedScan,这是一个多模态、自我中心的三维感知数据集和基准,用于全面的三维场景理解。它包括超过5k个扫描,涵盖了1M个自我中心的RGB-D视图、1M个语言提示、160k个跨越760个类别的三维定向框,其中部分与LVIS部分对齐,以及密集的语义占用率,包括80个常见类别。在此数据库的基础上,我们介绍了一个名为Embodied Perceptron的基线框架。它能够处理任意数量的多模态输入,并展示了出色的三维感知能力,无论是在我们设置的两个系列基准中,即基本的三维感知任务和语言相关任务,还是在野外。代码、数据集和基准将在https://github.com/OpenRobotLab/EmbodiedScan上提供。
- 图表
- 解决问题本论文旨在解决计算机视觉和机器人领域中的一个问题,即如何实现具有多模态、自我中心、全面的3D场景理解能力的智能体。
- 关键思路论文提出了一个名为EmbodiedScan的多模态、自我中心的3D感知数据集和基准测试,并基于此构建了一个名为Embodied Perceptron的基线框架,该框架可以处理任意数量的多模态输入,并展示出了卓越的3D感知能力。
- 其它亮点EmbodiedScan数据集包含超过5k个扫描,1M个自我中心RGB-D视图,1M个语言提示,160k个3D定向框,涵盖760个类别,其中部分与LVIS相对应,并具有80个常见类别的密集语义占用。Embodied Perceptron框架在基本的3D感知任务和语言基础任务以及野外环境中展示出了卓越的3D感知能力。研究者还提供了数据集、代码和基准测试,可在https://github.com/OpenRobotLab/EmbodiedScan上获得。
- 在这个领域中,还有一些相关的研究,例如:《PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation》、《3D Bounding Box Estimation Using Deep Learning and Geometry》、《3D Object Proposals for Accurate Object Class Detection》等。
沙发等你来抢
去评论
评论
沙发等你来抢