- 简介在现实生活中,人们会寻找3D世界中的物体来满足他们的日常需求或意图。这启发我们引入了3D意图定位,这是一项基于人类意图的新任务,利用RGB-D进行3D物体检测,例如“我想要一些支撑我的背部的东西”。与此密切相关的是3D视觉定位,重点是理解人类参考。为了实现基于人类意图的检测,它依赖于人类观察场景,推理出与他们意图相符的目标(在这种情况下是“枕头”),最后向AI系统提供参考,例如“沙发上的枕头”。相反,3D意图定位挑战AI代理自动观察、推理和仅基于人类意图检测所需的目标。为了应对这一挑战,我们引入了新的Intent3D数据集,其中包含44,990个意图文本,涉及来自ScanNet数据集的1,042个场景中的209个细粒度类别。我们还在我们的基准测试中建立了几个基于不同语言的3D物体检测模型的基准。最后,我们提出了IntentNet,我们独特的方法,旨在解决这个基于意图的检测问题。它关注三个关键方面:意图理解、推理以识别对象候选者和级联自适应学习,利用不同损失的内在优先逻辑进行多目标优化。
-
- 图表
- 解决问题论文旨在解决3D物体检测中的新问题——基于人类意图的检测,即通过人类意图自动检测目标物体。
- 关键思路论文提出了一个新的方法——IntentNet,该方法专注于意图理解、推理以识别物体候选项,并采用级联自适应学习来优化多个目标。
- 其它亮点论文提出了Intent3D数据集,包含44,990个意图文本和209个细粒度类别,基于不同的语言模型建立了多个基准模型。实验结果表明,IntentNet在意图检测方面的性能优于其他基准模型。
- 最近在这个领域中,还有一些相关的研究,如《3D Object Detection with Point-Based Semantic Parsing》、《3D Object Detection with Attention-Based Feature Extraction》等。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流