LLaSA: Large Multimodal Agent for Human Activity Analysis Through Wearable Sensors

2024年06月20日
  • 简介
    将惯性测量单元(IMUs)与大型语言模型(LLMs)集成,可以通过增强对人类活动的理解来推进多模态人工智能。我们介绍了SensorCaps数据集,其中包含26,288个IMU生成的活动描述,以及OpenSQA,一个包含257,562个问题-答案对的指令跟随数据集。通过结合LIMU-BERT和Llama,我们开发了LLaSA,一个能够解释和回答活动和运动分析查询的大型多模态代理。我们的评估证明了LLaSA在活动分类和问答方面的有效性,并突显了它在医疗保健、体育科学和人机交互方面的潜力。这些贡献推进了传感器感知语言模型,并开辟了新的研究方向。我们的代码库和数据集可在https://github.com/BASHLab/LLaSA找到。
  • 图表
  • 解决问题
    本论文旨在将惯性测量单元(IMUs)与大型语言模型(LLMs)相结合,以增强对人类活动的理解。同时,论文提出了SensorCaps数据集和OpenSQA指令跟随数据集,用于训练和评估新的模型。
  • 关键思路
    论文提出了一种基于LIMU-BERT和Llama的大型多模态代理LLaSA,它能够解释和回答活动和运动分析查询,并在活动分类和问题回答方面取得了良好的效果。
  • 其它亮点
    论文使用SensorCaps数据集和OpenSQA数据集进行实验,并开源了代码和数据集。LLaSA模型在活动分类和问题回答方面表现出色,具有广泛的应用前景,例如医疗保健、体育科学和人机交互等领域。
  • 相关研究
    在这个领域中,还有一些相关的研究,例如《Multimodal Transformer for Unaligned Multimodal Language Sequences》和《Multimodal Transformer for Dynamic Multimodal Data》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论