Intent3D: 3D Object Detection in RGB-D Scans Based on Human Intention

2024年05月28日
  • 简介
    在现实生活中,人们会寻找3D世界中的物体来满足他们的日常需求或意图。这启发我们引入了3D意图定位,这是一项基于人类意图的新任务,利用RGB-D进行3D物体检测,例如“我想要一些支撑我的背部的东西”。与此密切相关的是3D视觉定位,重点是理解人类参考。为了实现基于人类意图的检测,它依赖于人类观察场景,推理出与他们意图相符的目标(在这种情况下是“枕头”),最后向AI系统提供参考,例如“沙发上的枕头”。相反,3D意图定位挑战AI代理自动观察、推理和仅基于人类意图检测所需的目标。为了应对这一挑战,我们引入了新的Intent3D数据集,其中包含44,990个意图文本,涉及来自ScanNet数据集的1,042个场景中的209个细粒度类别。我们还在我们的基准测试中建立了几个基于不同语言的3D物体检测模型的基准。最后,我们提出了IntentNet,我们独特的方法,旨在解决这个基于意图的检测问题。它关注三个关键方面:意图理解、推理以识别对象候选者和级联自适应学习,利用不同损失的内在优先逻辑进行多目标优化。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文旨在解决3D物体检测中的新问题——基于人类意图的检测,即通过人类意图自动检测目标物体。
  • 关键思路
    论文提出了一个新的方法——IntentNet,该方法专注于意图理解、推理以识别物体候选项,并采用级联自适应学习来优化多个目标。
  • 其它亮点
    论文提出了Intent3D数据集,包含44,990个意图文本和209个细粒度类别,基于不同的语言模型建立了多个基准模型。实验结果表明,IntentNet在意图检测方面的性能优于其他基准模型。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《3D Object Detection with Point-Based Semantic Parsing》、《3D Object Detection with Attention-Based Feature Extraction》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问