Dual Attribute-Spatial Relation Alignment for 3D Visual Grounding

简介

本文介绍了一种新兴的研究领域——3D视觉定位，旨在建立3D物理世界与自然语言之间的联系，这对于实现具有体现智能至关重要。我们提出了DASANet，一种双重属性-空间关系对齐网络，它分别对语言和3D视觉模态之间的对象属性和空间关系特征进行建模和对齐。我们将语言和3D点云输入分解为两个独立部分，并设计了一个双分支注意力模块，用于分别对分解的输入进行建模，同时通过交叉注意力保留属性-空间特征融合的全局上下文。我们的DASANet在Nr3D数据集上实现了最高的定位准确率65.1％，比最佳竞争对手高1.3％。此外，两个分支的可视化证明了我们的方法高效且易于解释。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

DASANet旨在解决3D视觉 grounding 领域中自然语言和3D物理世界之间的联系问题，以实现具有体现智能的AI。
关键思路

DASANet是一个双重属性-空间关系对齐网络，通过分别对语言和3D视觉模态之间的对象属性和空间关系特征进行建模和对齐，实现了全局上下文的属性-空间特征融合。通过交叉关注实现了两个分支的特征对齐。
其它亮点

DASANet在Nr3D数据集上实现了最高的65.1%的 grounding 精度，比最佳竞争对手高1.3%。此外，两个分支的可视化证明了该方法是高效和高度可解释的。
相关研究

最近的相关研究包括：《Neural 3D Mesh Renderer》、《Neural Scene Graph》、《3D-GAN》等。

Dual Attribute-Spatial Relation Alignment for 3D Visual Grounding

提问交流

提问交流