Dual Attribute-Spatial Relation Alignment for 3D Visual Grounding

2024年06月13日
  • 简介
    本文介绍了一种新兴的研究领域——3D视觉定位,旨在建立3D物理世界与自然语言之间的联系,这对于实现具有体现智能至关重要。我们提出了DASANet,一种双重属性-空间关系对齐网络,它分别对语言和3D视觉模态之间的对象属性和空间关系特征进行建模和对齐。我们将语言和3D点云输入分解为两个独立部分,并设计了一个双分支注意力模块,用于分别对分解的输入进行建模,同时通过交叉注意力保留属性-空间特征融合的全局上下文。我们的DASANet在Nr3D数据集上实现了最高的定位准确率65.1%,比最佳竞争对手高1.3%。此外,两个分支的可视化证明了我们的方法高效且易于解释。
  • 作者讲解
  • 图表
  • 解决问题
    DASANet旨在解决3D视觉 grounding 领域中自然语言和3D物理世界之间的联系问题,以实现具有体现智能的AI。
  • 关键思路
    DASANet是一个双重属性-空间关系对齐网络,通过分别对语言和3D视觉模态之间的对象属性和空间关系特征进行建模和对齐,实现了全局上下文的属性-空间特征融合。通过交叉关注实现了两个分支的特征对齐。
  • 其它亮点
    DASANet在Nr3D数据集上实现了最高的65.1%的 grounding 精度,比最佳竞争对手高1.3%。此外,两个分支的可视化证明了该方法是高效和高度可解释的。
  • 相关研究
    最近的相关研究包括:《Neural 3D Mesh Renderer》、《Neural Scene Graph》、《3D-GAN》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问