MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics

2024年07月22日
  • 简介
    本文研究了利用多摄像头系统和整合多样化数据源进行多模态地点识别的影响,包括显式的视觉语义和文本描述。我们的方法名为MSSPlace,利用多个摄像头、LiDAR点云、语义分割掩模和文本注释生成全面的地点描述符。我们采用了后期融合方法来整合这些模态,提供一个统一的表示。通过对牛津机器人车和NCLT数据集的广泛实验,我们系统地分析了每个数据源对地点描述符整体质量的影响。我们的实验表明,与单模态方法相比,结合多个传感器的数据显著提高了地点识别模型的性能,并导致了最先进的质量。我们还展示了单独使用视觉或文本语义(这是更紧凑的传感器数据表示)在地点识别方面可以取得有希望的结果。我们的方法的代码公开可用:https://github.com/alexmelekhin/MSSPlace。
  • 图表
  • 解决问题
    论文旨在研究利用多摄像头和多种数据源进行多模态场所识别的效果,并比较不同数据源对场所描述符质量的影响。
  • 关键思路
    论文提出了一种名为MSSPlace的方法,利用多个摄像头、LiDAR点云、语义分割掩模和文本注释生成综合场所描述符,并采用后期融合方法将这些模态集成为一个统一的表示。通过在Oxford RobotCar和NCLT数据集上的实验,论文系统地分析了每个数据源对场所描述符总体质量的影响,并证明了多传感器数据相比单模态方法显著提高了场所识别模型的性能。
  • 其它亮点
    论文的亮点包括:(1)提出了一种多模态场所识别方法,可以利用多个数据源,包括图像、点云、语义分割和文本注释,生成综合场所描述符;(2)采用后期融合方法将这些模态集成为一个统一的表示;(3)通过实验系统地分析了每个数据源对场所描述符总体质量的影响,并证明了多传感器数据相比单模态方法显著提高了场所识别模型的性能;(4)提供了开源代码。
  • 相关研究
    最近在这个领域中,相关研究包括:1. “Visual Place Recognition: A Survey”;2. “Deep Multi-modal Object Detection and Semantic Segmentation for Autonomous Driving: Datasets, Methods, and Challenges”;3. “Multimodal Deep Learning for Robust RGB-D Object Recognition”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论