- 简介将惯性测量单元(IMUs)与大型语言模型(LLMs)集成,可以通过增强对人类活动的理解来推进多模态人工智能。我们介绍了SensorCaps数据集,其中包含26,288个IMU生成的活动描述,以及OpenSQA,一个包含257,562个问题-答案对的指令跟随数据集。通过结合LIMU-BERT和Llama,我们开发了LLaSA,一个能够解释和回答活动和运动分析查询的大型多模态代理。我们的评估证明了LLaSA在活动分类和问答方面的有效性,并突显了它在医疗保健、体育科学和人机交互方面的潜力。这些贡献推进了传感器感知语言模型,并开辟了新的研究方向。我们的代码库和数据集可在https://github.com/BASHLab/LLaSA找到。
- 图表
- 解决问题本论文旨在将惯性测量单元(IMUs)与大型语言模型(LLMs)相结合,以增强对人类活动的理解。同时,论文提出了SensorCaps数据集和OpenSQA指令跟随数据集,用于训练和评估新的模型。
- 关键思路论文提出了一种基于LIMU-BERT和Llama的大型多模态代理LLaSA,它能够解释和回答活动和运动分析查询,并在活动分类和问题回答方面取得了良好的效果。
- 其它亮点论文使用SensorCaps数据集和OpenSQA数据集进行实验,并开源了代码和数据集。LLaSA模型在活动分类和问题回答方面表现出色,具有广泛的应用前景,例如医疗保健、体育科学和人机交互等领域。
- 在这个领域中,还有一些相关的研究,例如《Multimodal Transformer for Unaligned Multimodal Language Sequences》和《Multimodal Transformer for Dynamic Multimodal Data》等。
沙发等你来抢
去评论
评论
沙发等你来抢