RGB-Event based Pedestrian Attribute Recognition: A Benchmark Dataset and An Asymmetric RWKV Fusion Framework

2025年04月14日
  • 简介
    现有的行人属性识别方法通常基于RGB帧相机开发。然而,这些方法受限于RGB相机的局限性,例如对光照条件的敏感性和运动模糊问题,这些问题影响了其性能。此外,当前的属性识别主要集中在分析行人的外貌和穿着,而缺乏对情感维度的探索。在本文中,我们重新审视了这些问题,并受到事件相机在低光、高速和低功耗优势的启发,提出了一种全新的多模态RGB-Event属性识别任务。具体来说,我们引入了首个大规模多模态行人属性识别数据集,命名为EventPAR,该数据集包含10万对RGB-Event样本,涵盖了50个与外貌和六种人类情绪相关的属性,同时包含了多样化的场景和不同季节的数据。通过在该数据集上重新训练和评估主流的行人属性识别模型,我们建立了一个全面的基准,并为未来的研究提供了坚实的数据和算法基础。此外,我们提出了一种基于RWKV的新型多模态行人属性识别框架,该框架包含一个RWKV视觉编码器和一个非对称RWKV融合模块。我们在所提出的数据集以及两个模拟数据集(MARS-Attribute和DukeMTMC-VID-Attribute)上进行了广泛的实验,取得了最先进的结果。源代码和数据集将在https://github.com/Event-AHU/OpenPAR上发布。
  • 图表
  • 解决问题
    该论文试图解决现有行人属性识别方法在光照条件敏感、运动模糊以及情感维度缺失等问题。这是一个已知问题,但通过引入事件相机(Event Camera)的多模态数据来解决这些问题是一个新的尝试。
  • 关键思路
    论文提出了一种基于RGB-Event的多模态行人属性识别任务,并构建了首个大规模多模态数据集EventPAR。相比传统仅依赖RGB图像的方法,该框架结合了事件相机的优势,如低光照、高速度和低功耗特性。此外,论文还提出了一个基于RWKV的多模态框架,包含RWKV视觉编码器和不对称RWKV融合模块,以更好地处理多模态信息。
  • 其它亮点
    1. 构建了首个大规模多模态行人属性识别数据集EventPAR,包含10万对RGB-Event样本,覆盖50个属性和6种人类情绪;2. 在EventPAR、MARS-Attribute和DukeMTMC-VID-Attribute三个数据集上进行了广泛实验,取得了SOTA结果;3. 提出了基于RWKV的多模态框架,展示了强大的性能;4. 数据集和代码将在https://github.com/Event-AHU/OpenPAR开源,为未来研究提供了坚实基础。
  • 相关研究
    近期相关研究包括:1. 《Event Cameras: Theory and Applications》探讨了事件相机的基本原理及其应用;2. 《Multimodal Learning for Pedestrian Attribute Recognition》研究了多模态数据在行人属性识别中的潜力;3. 《RWKV: Retrospective Vision Knowledge Vault》介绍了RWKV模型在视觉任务中的表现;4. 《Low-Light Image Enhancement Using Event Cameras》利用事件相机解决了低光环境下的图像增强问题。这些工作共同推动了多模态感知和事件相机技术的发展。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论