- 简介最近,三维感知系统的进步显著提高了它们执行诸如分割之类的视觉识别任务的能力。然而,这些系统仍然严重依赖于明确的人类指令来识别目标对象或类别,缺乏主动推理和理解隐含用户意图的能力。我们引入了一项新的分割任务,称为三维对象推理部分分割,旨在基于关于三维对象特定部分的复杂和隐含的文本查询输出分割掩模。为了便于评估和基准测试,我们提供了一个大型三维数据集,其中包含超过60k条指令,配对相应的基于推理的三维部分分割注释,专门为基于推理的三维部分分割而策划。我们提出了一种模型,能够根据隐含的文本查询分割三维对象的部分,并生成对应于三维对象分割请求的自然语言解释。实验证明,我们的方法实现了与使用显式查询的模型竞争性能,具有识别部分概念、推理和补充世界知识的附加能力。我们的源代码、数据集和训练模型可在https://github.com/AmrinKareem/PARIS3D上获得。
- 图表
- 解决问题论文试图解决的问题是如何让3D感知系统能够根据复杂的、隐含的文本查询对物体的部分进行分割,以及如何生成相应的自然语言解释。
- 关键思路论文提出了一种新的分割任务:基于推理的3D部分分割,并提出了一个模型来实现根据隐含的文本查询对3D物体的部分进行分割的任务。该模型能够识别部分概念、推理和补充世界知识,与使用显式查询的模型相比,具有更强的能力。
- 其它亮点论文提出的模型在与使用显式查询的模型相比具有更强的能力。论文提供了一个大型的3D数据集,并提供了相应的标注,用于评估和基准测试。此外,论文还提供了源代码和训练模型。
- 最近的相关研究包括:'3D object segmentation using deep learning: A survey','PartNet: A Large-scale Benchmark for Fine-grained and Hierarchical Part-level 3D Object Understanding'等。
沙发等你来抢
去评论
评论
沙发等你来抢