- 简介最近的几个few-shot动作识别(FSAR)方法通过对学习到的判别特征进行语义匹配,取得了很好的性能。然而,大多数FSAR方法都集中在单尺度(例如,帧级别、片段级别等)特征对齐上,忽略了具有相同语义的人类动作可能以不同的速度出现。为此,我们开发了一种新颖的多速度渐进对齐(MVP-Shot)框架,以逐步学习和对齐多速度级别的语义相关动作特征。具体而言,我们设计了一个多速度特征对齐(MVFA)模块,用于衡量来自不同速度尺度的支持和查询视频的特征之间的相似性,然后以残差的方式合并所有相似性得分。为避免多速度特征偏离基础运动语义,我们提出了一种渐进式语义定制交互(PSTI)模块,在不同速度上通过通道和时间域的特征交互将速度定制的文本信息注入视频特征中。上述两个模块相互补偿,以在few-shot设置下更准确地预测查询类别。实验结果表明,我们的方法在多个标准few-shot基准测试(即HMDB51、UCF101、Kinetics和SSv2-small)上优于当前最先进的方法。
-
- 图表
- 解决问题本论文旨在解决传统FSAR方法只关注单一速度特征对齐的问题,提出了一个新的Multi-Velocity Progressive-alignment (MVP-Shot)框架,通过逐步学习和对齐多速度级别的语义相关动作特征,以提高Few-shot动作识别(FSAR)的性能。
- 关键思路本文的关键思路是设计了一个Multi-Velocity Feature Alignment (MVFA)模块来度量不同速度尺度的支持和查询视频特征之间的相似性,并以残差方式合并所有相似度得分。同时,通过Progressive Semantic-Tailored Interaction (PSTI)模块将速度量身定制的文本信息注入视频特征中,以避免多速度特征偏离基础运动语义。两个模块相互补偿,以在Few-shot情况下更准确地预测查询类别。
- 其它亮点本文的实验结果表明,MVP-Shot框架在多个标准Few-shot基准测试中(HMDB51,UCF101,Kinetics和SSv2-small)优于当前最先进的方法。此外,本文还提出了一种新的数据增强方法(Temporal Augmentation),可以在不需要额外标注的情况下提高模型的性能。
- 最近的相关研究包括:Few-shot动作识别(FSAR)领域的其他方法,如ProtoGAN,TFA等,以及在多尺度特征对齐方面的相关工作,如MS-TCN,TPN等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流