- 简介本文介绍了一种名为Attention Prompt Tuning(APT)的方法,它是Prompt Tuning的一种高效变体,适用于视频动作识别等基于视频的应用。Prompt Tuning方法在微调过程中注入一组可学习的提示信息,同时保持骨干网络不变。与完全微调相比,这种方法大大减少了可学习参数的数量。对于基于图像的下游任务,通常只需要几个可学习提示就可以实现接近完全微调的结果。然而,视频包含更复杂的时空信息,需要数百个可调节的提示才能实现相对良好的结果。这降低了图像中观察到的参数效率,并显著增加了推理期间的浮点运算次数和延迟。为了解决这些问题,本文将提示信息直接注入变压器块中的非局部注意机制的键和值中,并引入了一种新的提示重新参数化技术,使APT更加鲁棒,不受超参数选择的影响。在UCF101、HMDB51和SSv2数据集上进行的实验表明,所提出的APT方法大大降低了浮点运算次数和延迟,并在动作识别方面取得了显著的性能提升,优于现有的参数效率调整方法。代码和预训练模型可在 https://github.com/wgcban/apt 上获得。
- 图表
- 解决问题论文旨在解决视频动作识别中参数效率问题,即如何在减少参数数量的同时提高模型性能。
- 关键思路论文提出了Attention Prompt Tuning (APT)方法,通过将可学习的提示注入到transformer块中的非局部注意力机制的键和值中,来实现视频动作识别中的参数效率。
- 其它亮点APT方法大大减少了浮点运算次数和延迟,同时在UCF101、HMDB51和SSv2数据集上取得了显著的性能提升。论文还介绍了一种新的提示重新参数化技术,使APT方法更加鲁棒。研究使用的数据集和代码都已开源。
- 与APT相关的研究包括Prompt Tuning和其他参数效率方法,如EfficientNet和MobileNet。
沙发等你来抢
去评论
评论
沙发等你来抢