- 简介这篇论文介绍了一种名为DOrA的新型三维视觉定位框架,旨在通过自然语言描述来确定三维点云场景中的目标物体。与以往的研究不同,DOrA利用大型语言模型来解析语言描述,建议一种锚点对象的参照顺序。这些有序的锚点对象使DOrA能够在定位过程中更新视觉特征并定位目标物体。NR3D和ScanRefer数据集上的实验结果表明,DOrA在低资源和全数据场景下都表现出优异的性能。特别是,在1%数据和10%数据设置下,DOrA的定位准确率比当前最先进的框架分别提高了9.3%和7.8%。
- 图表
- 解决问题该论文旨在解决3D视觉定位中存在的问题,即对自然语言描述中的目标物体进行定位。现有的跨模态转换器可能无法处理非结构化的自然语言描述和分散的物体,从而导致性能下降。
- 关键思路该论文提出了一种新的3D视觉定位框架DOrA,它利用大型语言模型解析语言描述,并建议锚点物体的引用顺序。这些有序的锚点物体允许DOrA在定位过程中更新视觉特征并定位目标物体。
- 其它亮点该论文在NR3D和ScanRefer数据集上进行了实验,证明了DOrA在低资源和全数据场景下的优越性。特别是在1%数据和10%数据设置下,DOrA的定位准确度分别比当前最先进的框架提高了9.3%和7.8%。
- 最近的相关研究包括使用深度学习模型进行3D视觉定位和自然语言处理,例如Cross-Modal Transformers,SCAN和SRN。
沙发等你来抢
去评论
评论
沙发等你来抢