- 简介近年来,越来越多的研究关注于利用不同的传感器模态(例如RGB、IR、深度、LiDAR和事件)来进行行人检测。然而,设计一个能够有效处理多种传感器模态的统一通用模型仍然是一个挑战。本文介绍了一种新型的多模态感知通用模型MMPedestron。与之前只处理一个或一对特定模态输入的专家模型不同,MMPedestron能够处理多个模态输入及其动态组合。所提出的方法包括模态表示和融合的统一编码器和行人检测的通用头部。我们引入了两个额外的可学习标记MAA和MAF,用于自适应多模态特征融合。此外,我们构建了MMPD数据集,这是第一个用于多模态行人检测的大规模基准测试。该基准测试包括现有的公共数据集和一个名为EventPed的新收集数据集,涵盖了广泛的传感器模态,包括RGB、IR、深度、LiDAR和事件数据。通过多模态联合训练,我们的模型在广泛的行人检测基准测试中实现了最先进的性能,超过了针对特定传感器模态的领先模型。例如,在COCO-Persons上实现了71.1 AP,在LLVIP上实现了72.6 AP。值得注意的是,我们的模型在CrowdHuman上实现了与InternImage-H模型可比的性能,但参数规模小30倍。代码和数据可在https://github.com/BubblyYi/MMPedestron获得。
- 图表
- 解决问题设计一个通用的多模态行人检测模型,能够有效处理不同传感器模态的输入,并能动态组合这些输入,以提高检测性能。
- 关键思路提出了MMPedestron模型,该模型包括统一的编码器和通用头部,使用两个可学习的令牌MAA和MAF进行自适应多模态特征融合。同时,构建了MMPD数据集,是第一个大规模的多模态行人检测基准,包括现有公共数据集和新收集的EventPed数据集。
- 其它亮点实验结果表明,MMPedestron模型在多模态联合训练下,在多个行人检测基准上实现了最先进的性能,超过了针对特定传感器模态的领先模型。此外,该模型在CrowdHuman数据集上的性能与InternImage-H模型相当,但参数量只有后者的1/30。论文提供了代码和数据,并值得进一步研究。
- 最近的相关研究包括:'Multi-Modal Multi-Task Learning for Autonomous Driving'、'Multi-Modal Object Detection Using Neural Networks with Mutual Modality Integration'、'Multi-Modal Deep Learning for Vehicle Detection in Aerial Images'等。
沙发等你来抢
去评论
评论
沙发等你来抢