MiKASA: Multi-Key-Anchor & Scene-Aware Transformer for 3D Visual Grounding

简介

3D视觉定位涉及将自然语言描述与其在3D空间中对应的对象匹配。现有方法往往在对象识别的准确性和解释复杂语言查询方面面临挑战，特别是涉及多个锚点或视角相关的描述。为此，我们提出了MiKASA（多键锚点场景感知）变压器。我们的新颖端到端训练模型集成了基于自我注意力的场景感知对象编码器和原始的多键锚点技术，增强了对象识别的准确性和空间关系的理解。此外，MiKASA提高了决策可解释性，便于错误诊断。我们的模型在Referit3D挑战赛中在Sr3D和Nr3D数据集上实现了最高的整体准确性，特别是在需要视点相关描述的类别中表现出色。本项目的源代码和其他资源可在GitHub上获得：https://github.com/birdy666/MiKASA-3DVG。
图表
解决问题

MiKASA试图解决3D视觉地面化中的物体识别和语言查询理解的问题，特别是对于涉及多个锚点或视角依赖性描述的情况。
关键思路

MiKASA使用自我注意力机制和多关键锚点技术来提高物体识别准确性和对空间关系的理解，并提高决策可解释性。
其它亮点

MiKASA在Referit3D挑战赛中取得了最高的总体准确性，特别是在需要视角依赖性描述的类别中表现突出。该论文提供了开源代码和其他资源。
相关研究

最近在3D视觉地面化领域的相关研究包括：'Learning to Navigate the Energy Landscape'，'3D Scene Graph: A Structure for Unified Semantics, 3D Space, and Camera'，'Visual Grounding in 3D Environments'等。

MiKASA: Multi-Key-Anchor & Scene-Aware Transformer for 3D Visual Grounding

评论