- 简介大多数现有的一次性基于骨架的动作识别侧重于原始的低级信息(例如关节位置),可能会遭受局部信息丢失和低泛化能力的困扰。为了缓解这些问题,我们提出利用大型语言模型(LLM)生成的文本描述,其中包含高级人类知识,以全局-局部-全局的方式指导特征学习。特别地,在训练期间,我们设计了两个提示来获得LLM中每个动作的全局和局部文本描述。我们首先利用全局文本描述来引导骨架编码器关注信息丰富的关节(即从全局到局部)。然后,我们建立局部文本和关节特征之间的非局部交互,形成最终的全局表示(即从局部到全局)。为了缓解训练和推理阶段之间的不对称问题,我们进一步设计了一个双分支架构,使模型能够在没有任何文本输入的情况下执行新类别推理,同时使额外的推理成本与基础骨架编码器相比可以忽略不计。在三个不同的基准测试上进行的大量实验表明,CrossGLG始终以大幅度优于现有SOTA方法的性能表现,而推理成本(模型大小)仅比先前的SOTA多2.8%。CrossGLG还可以作为即插即用的模块,可以在推理期间忽略成本的情况下大大提高不同SOTA骨架编码器的性能。源代码将很快发布。
-
- 图表
- 解决问题本论文旨在解决现有单次骨架动作识别方法中存在的局部信息丢失和低泛化能力问题,提出了一种利用大型语言模型生成文本描述来引导特征学习的方法。
- 关键思路该方法通过在训练期间设计两个提示来获取每个动作的全局和局部文本描述,从而在全局-局部-全局的方式下进行特征学习。同时,为了缓解训练和推理阶段之间的不对称问题,设计了一个双分支架构,使模型能够在没有任何文本输入的情况下执行新的类别推断。
- 其它亮点实验结果表明,该方法在三个不同的基准测试中始终优于现有的SOTA方法,并且推理成本(模型大小)仅比以前的SOTA高2.8%。CrossGLG还可以作为即插即用模块,可以大大提高不同SOTA骨架编码器的性能,推理成本可忽略不计。该论文开放了源代码。
- 最近的相关研究包括:'Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning','Skeleton-based Action Recognition with Directed Graph Neural Networks','Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流