VideoMambaPro: A Leap Forward for Mamba in Video Understanding

简介

视频理解需要提取丰富的时空表示，而Transformer模型通过自注意力实现这一目标。不幸的是，自注意力会带来计算负担。在自然语言处理中，Mamba已经成为Transformer的高效替代方案。然而，Mamba的成功并不直接适用于计算机视觉任务，包括视频分析。本文在理论上分析了自注意力和Mamba之间的区别。我们确定了Mamba中标记处理的两个限制：历史衰减和元素矛盾。我们提出了VideoMambaPro（VMP），通过向VideoMamba骨干网络添加掩码反向计算和元素残差连接来解决所确定的限制。与Transformer模型相比，VideoMambaPro展现出了最先进的视频动作识别性能，并且在Kinetics-400和Something-Something V2上分别超过了VideoMamba 7.9%和8.1%的top-1。我们的VideoMambaPro-M模型在Kinetics-400上实现了91.9%的top-1，仅比InternVideo2-6B低0.2%，但只有其参数的1.2%。高性能和高效的结合使VideoMambaPro成为Transformer模型的一个有趣的替代方案。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决视频理解中使用transformer模型时所面临的计算负担问题，提出了一种名为VideoMambaPro（VMP）的解决方案。
关键思路

本文通过理论分析发现Mamba在处理历史信息和元素矛盾方面存在局限性，提出了添加掩码反向计算和元素残差连接的VMP解决方案，并在视频动作识别任务中取得了优秀的表现。
其它亮点

本文提出的VMP在Kinetics-400和Something-Something V2数据集上取得了7.9%和8.1%的top-1优势，VMP-Model在Kinetics-400数据集上取得了91.9%的top-1表现，仅使用了InternVideo2-6B模型参数的1.2%。这使得VMP成为transformer模型的有趣替代方案。
相关研究

近期相关研究包括：'Attention Is All You Need'、'Mamba: Integrating Batch Normalization and Self-Attention for Vision Tasks'、'Non-local Neural Networks'等。

VideoMambaPro: A Leap Forward for Mamba in Video Understanding

提问交流

提问交流