- 简介本文介绍了一种新兴的研究领域——3D视觉定位,旨在建立3D物理世界与自然语言之间的联系,这对于实现具有体现智能至关重要。我们提出了DASANet,一种双重属性-空间关系对齐网络,它分别对语言和3D视觉模态之间的对象属性和空间关系特征进行建模和对齐。我们将语言和3D点云输入分解为两个独立部分,并设计了一个双分支注意力模块,用于分别对分解的输入进行建模,同时通过交叉注意力保留属性-空间特征融合的全局上下文。我们的DASANet在Nr3D数据集上实现了最高的定位准确率65.1%,比最佳竞争对手高1.3%。此外,两个分支的可视化证明了我们的方法高效且易于解释。
-
- 图表
- 解决问题DASANet旨在解决3D视觉 grounding 领域中自然语言和3D物理世界之间的联系问题,以实现具有体现智能的AI。
- 关键思路DASANet是一个双重属性-空间关系对齐网络,通过分别对语言和3D视觉模态之间的对象属性和空间关系特征进行建模和对齐,实现了全局上下文的属性-空间特征融合。通过交叉关注实现了两个分支的特征对齐。
- 其它亮点DASANet在Nr3D数据集上实现了最高的65.1%的 grounding 精度,比最佳竞争对手高1.3%。此外,两个分支的可视化证明了该方法是高效和高度可解释的。
- 最近的相关研究包括:《Neural 3D Mesh Renderer》、《Neural Scene Graph》、《3D-GAN》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流