- 简介视频理解需要提取丰富的时空表示,而Transformer模型通过自注意力实现这一目标。不幸的是,自注意力会带来计算负担。在自然语言处理中,Mamba已经成为Transformer的高效替代方案。然而,Mamba的成功并不直接适用于计算机视觉任务,包括视频分析。本文在理论上分析了自注意力和Mamba之间的区别。我们确定了Mamba中标记处理的两个限制:历史衰减和元素矛盾。我们提出了VideoMambaPro(VMP),通过向VideoMamba骨干网络添加掩码反向计算和元素残差连接来解决所确定的限制。与Transformer模型相比,VideoMambaPro展现出了最先进的视频动作识别性能,并且在Kinetics-400和Something-Something V2上分别超过了VideoMamba 7.9%和8.1%的top-1。我们的VideoMambaPro-M模型在Kinetics-400上实现了91.9%的top-1,仅比InternVideo2-6B低0.2%,但只有其参数的1.2%。高性能和高效的结合使VideoMambaPro成为Transformer模型的一个有趣的替代方案。
-
- 图表
- 解决问题本文旨在解决视频理解中使用transformer模型时所面临的计算负担问题,提出了一种名为VideoMambaPro(VMP)的解决方案。
- 关键思路本文通过理论分析发现Mamba在处理历史信息和元素矛盾方面存在局限性,提出了添加掩码反向计算和元素残差连接的VMP解决方案,并在视频动作识别任务中取得了优秀的表现。
- 其它亮点本文提出的VMP在Kinetics-400和Something-Something V2数据集上取得了7.9%和8.1%的top-1优势,VMP-Model在Kinetics-400数据集上取得了91.9%的top-1表现,仅使用了InternVideo2-6B模型参数的1.2%。这使得VMP成为transformer模型的有趣替代方案。
- 近期相关研究包括:'Attention Is All You Need'、'Mamba: Integrating Batch Normalization and Self-Attention for Vision Tasks'、'Non-local Neural Networks'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流