AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection

向作者提问

NEW

简介

多光谱行人检测已被证明在复杂照明情况下提高性能的有效方法。然而，多光谱检测中普遍使用的双流网络为多模态数据使用了两个独立的特征提取分支，导致推理时间几乎比只使用一个特征提取分支的单流网络增加了一倍。这种增加的推理时间阻碍了多光谱行人检测在嵌入式设备中用于自主系统的广泛应用。为了解决这个问题，提出了各种知识蒸馏方法。然而，传统的蒸馏方法只关注融合特征，忽略了原始多模态特征中的大量信息，从而限制了学生网络的性能。为了解决这个挑战，引入了自适应模态融合蒸馏（AMFD）框架，可以充分利用教师网络的原始模态特征。具体而言，使用模态提取对齐（MEA）模块为学生网络推导学习权重，集成了焦点和全局注意机制。这种方法使得学生网络可以独立于教师网络获得最佳的融合策略，而无需额外的特征融合模块。此外，提出了SMOD数据集，这是一个对齐良好的具有挑战性的多光谱数据集，用于检测。在具有挑战性的KAIST、LLVIP和SMOD数据集上进行了大量实验，验证了AMFD的有效性。结果表明，我们的方法在减少对数平均漏检率和提高平均精度方面优于现有的最先进方法。代码可在https://github.com/bigD233/AMFD.git上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决多光谱行人检测中双流网络推理时间较长的问题，通过知识蒸馏方法提出自适应模态融合蒸馏（AMFD）框架来充分利用原始模态特征。
关键思路

AMFD框架通过模态提取对齐（MEA）模块来为学生网络推导学习权重，实现了全局和局部注意机制的整合，使得学生网络能够独立获取最优的融合策略，而无需额外的特征融合模块。
其它亮点

论文提出了SMOD数据集，该数据集是一个经过对齐的多光谱数据集，用于检测。实验结果表明，AMFD方法在KAIST、LLVIP和SMOD数据集上的表现优于现有的最先进方法，能够降低日志平均漏检率并提高平均精度。论文提供了开源代码。
相关研究

最近的相关研究包括：《Multi-modal and Multi-scale Pedestrian Detection: Benchmark Dataset and Baselines》、《Multi-modal Deep Learning for Robust RGB-D Object Recognition》、《Multi-modal and Multi-view Models for Object Detection: Benchmark and Baselines》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问