LLaSA: Large Multimodal Agent for Human Activity Analysis Through Wearable Sensors

简介

将惯性测量单元（IMUs）与大型语言模型（LLMs）集成，可以通过增强对人类活动的理解来推进多模态人工智能。我们介绍了SensorCaps数据集，其中包含26,288个IMU生成的活动描述，以及OpenSQA，一个包含257,562个问题-答案对的指令跟随数据集。通过结合LIMU-BERT和Llama，我们开发了LLaSA，一个能够解释和回答活动和运动分析查询的大型多模态代理。我们的评估证明了LLaSA在活动分类和问答方面的有效性，并突显了它在医疗保健、体育科学和人机交互方面的潜力。这些贡献推进了传感器感知语言模型，并开辟了新的研究方向。我们的代码库和数据集可在https://github.com/BASHLab/LLaSA找到。
图表
解决问题

本论文旨在将惯性测量单元（IMUs）与大型语言模型（LLMs）相结合，以增强对人类活动的理解。同时，论文提出了SensorCaps数据集和OpenSQA指令跟随数据集，用于训练和评估新的模型。
关键思路

论文提出了一种基于LIMU-BERT和Llama的大型多模态代理LLaSA，它能够解释和回答活动和运动分析查询，并在活动分类和问题回答方面取得了良好的效果。
其它亮点

论文使用SensorCaps数据集和OpenSQA数据集进行实验，并开源了代码和数据集。LLaSA模型在活动分类和问题回答方面表现出色，具有广泛的应用前景，例如医疗保健、体育科学和人机交互等领域。
相关研究

在这个领域中，还有一些相关的研究，例如《Multimodal Transformer for Unaligned Multimodal Language Sequences》和《Multimodal Transformer for Dynamic Multimodal Data》等。

LLaSA: Large Multimodal Agent for Human Activity Analysis Through Wearable Sensors

评论