MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition

2024年06月06日
  • 简介
    人类活动识别是人工智能领域长期存在的问题,应用范围广泛,包括医疗保健、体育运动、安全、人机交互和机器人等领域。在现实世界中,人类活动识别的性能强烈依赖于可以获取的输入信号类型和质量。在场景中有无阻碍的高质量摄像头视图下,计算机视觉系统,特别是与基础模型(例如CLIP)结合使用,可以相当可靠地区分复杂的活动。另一方面,使用可穿戴传感器等模态(通常更广泛地可用于移动电话和智能手表等设备)进行识别是一个更困难的问题,因为这些信号通常包含的信息较少,标记的训练数据更难获取。在这项工作中,我们展示了如何使用多模态对比预训练来提高不同模态下的人类活动识别性能。我们的方法MuJo(多模态联合特征空间学习)使用视频、语言、姿态和IMU传感器数据学习多模态联合特征空间。所提出的方法结合了对比和多任务学习方法,并分析了不同的多任务策略以学习紧凑的共享表示。还引入了一个大型数据集,其中包括平行的视频、语言、姿态和传感器数据点,以支持研究,并分析了多模态联合空间对模态不完整和低资源数据的鲁棒性。在MM-Fit数据集上,我们的模型仅使用2%的训练数据即可实现高达0.992的宏F1分数,在使用所有可用训练数据进行分类任务时,达到0.999。此外,在MM-Fit数据集未知的情况下,我们展示了高达0.638的泛化性能。
  • 图表
  • 解决问题
    本论文旨在通过多模态对比预训练来提高人类活动识别的性能,特别是在使用可穿戴传感器等低质量信号时。
  • 关键思路
    MuJo(多模态联合特征空间学习)方法通过结合对比和多任务学习方法,学习视频、语言、姿态和IMU传感器数据的多模态联合特征空间,分析不同的多任务学习策略以学习紧凑的共享表示。
  • 其它亮点
    该论文引入了一个大型数据集,包括平行视频、语言、姿态和传感器数据点,支持研究和分析多模态联合空间对于模态不完整和低资源数据的鲁棒性。在MM-Fit数据集上,该模型在仅使用2%的训练数据时实现了惊人的宏F1分数高达0.992,在使用所有可用训练数据进行分类任务时达到0.999。此外,在MM-Fit数据集未知的情况下,该模型表现出高达0.638的泛化性能。
  • 相关研究
    最近的相关研究包括使用深度学习方法进行人类活动识别的研究,以及使用多模态数据进行对比学习的研究,如MoVi-CLIP和CLIP-R2等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论