- 简介随着多媒体数据的指数增长,利用多模态传感器来提高人类活动识别的准确性是一种很有前途的方法。然而,使用视频数据和可穿戴传感器数据准确地识别这些活动存在挑战,因为需要进行费力的数据注释,并且依赖于外部预训练模型或额外的数据。为了解决这些挑战,我们引入了基于多模态掩码自编码器的一次性学习(Mu-MAE)。Mu-MAE将多模态掩码自编码器与适用于可穿戴传感器的同步掩码策略相结合。这种掩码策略迫使网络捕捉更有意义的时空特征,从而实现有效的自监督预训练,而无需外部数据。此外,Mu-MAE利用从多模态掩码自编码器提取的表示作为先验信息输入到跨注意力多模态融合层中。这个融合层强调跨不同模态需要关注的时空特征,同时突出与其他类别的差异,有助于度量基于一次性学习的各种类别的分类。对MMAct一次分类的全面评估表明,Mu-MAE优于所有评估方法,在不使用额外数据的情况下,实现了多达80.17%的五路一次多模态分类的准确性。
- 图表
- 解决问题本论文旨在解决利用多模态传感器进行人类活动识别时需要大量数据注释和依赖外部预训练模型或额外数据的问题。
- 关键思路该论文提出了一种名为Mu-MAE的方法,将多模态掩蔽自编码器与适用于可穿戴传感器的同步掩蔽策略相结合。该方法能够有效进行自监督预训练,无需额外数据,并将提取的表示作为先验信息输入到交叉关注多模态融合层中,以帮助分类。
- 其它亮点该论文在MMAct数据集上进行了全面的评估,表明Mu-MAE在五路一次多模态分类中的准确率可达80.17%,而无需使用额外数据。该方法的亮点包括同步掩蔽策略的使用,以及交叉关注多模态融合层的引入。
- 最近的相关研究包括利用深度学习方法进行人类活动识别的工作,如“Deep Convolutional Neural Networks for Human Activity Recognition Using Mobile Sensors”和“Deep Learning for Sensor-Based Activity Recognition: A Survey”。
沙发等你来抢
去评论
评论
沙发等你来抢