Enhancing Inertial Hand based HAR through Joint Representation of Language, Pose and Synthetic IMUs

简介

由于HAR中标记传感器数据的稀缺性，先前的研究已经转向使用视频数据来合成惯性测量单元（IMU）数据，利用其丰富的活动注释。然而，从视频中生成IMU数据在现实世界的HAR中存在挑战，归因于合成IMU数据的质量较差，且对于微妙、细粒度的运动效果有限。本文提出了Multi$^3$Net，我们的新型多模态、多任务和对比度基础框架方法，以解决数据有限的问题。我们的预训练过程使用来自在线存储库的视频，旨在同时学习文本、姿态和IMU的联合表示。通过使用视频数据和对比学习，我们的方法旨在提高可穿戴式HAR的性能，特别是在识别微妙活动方面。我们的实验结果验证了我们的方法在提高IMU数据的HAR性能方面的有效性。我们证明，使用我们的方法从视频生成的合成IMU数据训练的模型在识别细粒度活动方面优于现有方法。
图表
解决问题

本论文旨在解决HAR领域中标记传感器数据稀缺的问题，提出了一种基于多模态、多任务和对比学习的框架，通过使用视频数据和对比学习来提高可穿戴HAR性能，特别是在识别微妙活动方面的性能。
关键思路

论文提出了Multi$^3$Net框架，使用视频数据和对比学习来预训练学习文本、姿态和IMU的联合表示，用于生成IMU数据并提高HAR性能。
其它亮点

本论文使用了在线视频数据集进行预训练，提出了一种新颖的对比学习方法来学习联合表示，实验结果表明，该方法在使用合成IMU数据进行训练时可以优于现有方法，特别是在识别微妙活动方面。
相关研究

近期相关研究包括“Deep Convolutional Neural Networks for Human Activity Recognition Using Mobile Sensors”和“End-to-End Deep Learning Models for Human Activity Recognition”。

Enhancing Inertial Hand based HAR through Joint Representation of Language, Pose and Synthetic IMUs

评论