Intent3D: 3D Object Detection in RGB-D Scans Based on Human Intention

简介

在现实生活中，人们会寻找3D世界中的物体来满足他们的日常需求或意图。这启发我们引入了3D意图定位，这是一项基于人类意图的新任务，利用RGB-D进行3D物体检测，例如“我想要一些支撑我的背部的东西”。与此密切相关的是3D视觉定位，重点是理解人类参考。为了实现基于人类意图的检测，它依赖于人类观察场景，推理出与他们意图相符的目标（在这种情况下是“枕头”），最后向AI系统提供参考，例如“沙发上的枕头”。相反，3D意图定位挑战AI代理自动观察、推理和仅基于人类意图检测所需的目标。为了应对这一挑战，我们引入了新的Intent3D数据集，其中包含44,990个意图文本，涉及来自ScanNet数据集的1,042个场景中的209个细粒度类别。我们还在我们的基准测试中建立了几个基于不同语言的3D物体检测模型的基准。最后，我们提出了IntentNet，我们独特的方法，旨在解决这个基于意图的检测问题。它关注三个关键方面：意图理解、推理以识别对象候选者和级联自适应学习，利用不同损失的内在优先逻辑进行多目标优化。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文旨在解决3D物体检测中的新问题——基于人类意图的检测，即通过人类意图自动检测目标物体。
关键思路

论文提出了一个新的方法——IntentNet，该方法专注于意图理解、推理以识别物体候选项，并采用级联自适应学习来优化多个目标。
其它亮点

论文提出了Intent3D数据集，包含44,990个意图文本和209个细粒度类别，基于不同的语言模型建立了多个基准模型。实验结果表明，IntentNet在意图检测方面的性能优于其他基准模型。
相关研究

最近在这个领域中，还有一些相关的研究，如《3D Object Detection with Point-Based Semantic Parsing》、《3D Object Detection with Attention-Based Feature Extraction》等。

Intent3D: 3D Object Detection in RGB-D Scans Based on Human Intention

提问交流

提问交流