MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD

2024年06月11日
  • 简介
    本文研究的是长期视频理解,目标是识别长时间窗口内(长达几分钟)的人类行为。在之前的工作中,通过构建包含过去和未来视频特征的长期记忆库来捕获长期时间上下文,然后通过使用注意机制将其整合到标准(短期)视频识别骨干网络中。这种方法存在两个问题,一个是注意力操作的二次复杂度,另一个是整个特征库必须在推理期间存储在内存中。为了解决这两个问题,我们提出了一种基于奇异值分解获得的记忆的低秩逼近的注意力机制替代方案。我们的方案有两个优点:(a)它将复杂度降低了一个数量级以上,(b)它可以以增量方式高效地实现计算记忆基础,而不需要将整个特征库存储在内存中。所提出的方案在记忆效率方面与注意力机制相当或更优,同时在广泛的实验中,我们证明了我们的框架适用于不同的体系结构和任务,在三个数据集上优于现有技术水平。
  • 图表
  • 解决问题
    解决长期视频理解中的注意力机制复杂度和内存存储问题
  • 关键思路
    使用奇异值分解的低秩逼近代替注意力机制,减少计算复杂度和内存存储需求
  • 其它亮点
    提出的方案在多个数据集上超过了现有注意力机制的准确率,且计算复杂度和内存存储需求都显著降低,实验设计详细,可重复性好
  • 相关研究
    近期相关研究包括:'Long-term recurrent convolutional networks for visual recognition and description','Temporal relational reasoning in videos','A spatio-temporal transformer for video-based person re-identification'等
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论