Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition

  • 简介
    基于骨架的动作识别因利用简洁而弹性的骨架而备受关注。然而,骨架中缺乏详细的身体信息会限制性能,而其他多模态方法需要大量的推理资源,在训练和推理阶段使用多模态数据时效率低下。为了解决这个问题并充分利用互补的多模态特征,我们提出了一种新的多模态协同学习(MMCL)框架,通过利用多模态大型语言模型(LLM)作为辅助网络来实现高效的基于骨架的动作识别,该框架在训练阶段进行多模态协同学习,并通过仅使用简洁的骨架来保持效率。我们的MMCL框架主要由两个模块组成。首先,特征对齐模块(FAM)从视频帧中提取丰富的RGB特征,并通过对比学习将其与全局骨架特征对齐。其次,特征细化模块(FRM)使用具有时间信息和文本指令的RGB图像,基于多模态LLM的强大泛化能力生成指导性特征。这些指导性文本特征将进一步细化分类得分,而细化得分将增强模型的鲁棒性和泛化性,类似于软标签。对NTU RGB+D、NTU RGB+D 120和Northwestern-UCLA基准数据集的广泛实验一致证实了我们的MMCL的有效性,优于现有的基于骨架的动作识别方法。同时,在UTD-MHAD和SYSU-Action数据集上的实验表明了我们的MMCL在零样本和领域自适应动作识别方面的可赞赏的泛化能力。我们的代码公开在https://github.com/liujf69/MMCL-Action。
  • 图表
  • 解决问题
    本论文旨在解决骨架动作识别中缺乏详细身体信息的问题,同时避免使用多模态数据时需要大量推理资源的低效率问题。
  • 关键思路
    本论文提出了一种多模态共学习(MMCL)框架,通过利用多模态大语言模型作为辅助网络,实现了高效的骨架动作识别。该框架通过特征对齐模块和特征细化模块实现了多模态共学习,同时在推理阶段仅使用简洁的骨架。
  • 其它亮点
    本论文的亮点包括:1. 通过对比学习实现了从视频帧中提取丰富的RGB特征并将其与全局骨架特征对齐;2. 利用多模态大语言模型生成指导性文本特征,进一步提高分类得分;3. 在NTU RGB+D、NTU RGB+D 120和Northwestern-UCLA数据集上进行了广泛实验,并在零样本和领域自适应动作识别方面展现了优异的泛化能力;4. 代码已经公开。
  • 相关研究
    在骨架动作识别领域的相关研究包括:1.《Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition》;2. 《Graph Convolutional Networks for Skeleton-Based Action Recognition》;3. 《Skeleton-Based Action Recognition with Directed Graph Neural Networks》等。
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论