Memory Consolidation Enables Long-Context Video Understanding

2024年02月08日
  • 简介
    大多数基于Transformer的视频编码器由于其二次复杂度而受到短暂时间上下文的限制。虽然已经尝试了各种方法来扩展这个上下文,但这通常是以概念和计算复杂度的代价为代价的。我们提议重新利用现有的预训练视频Transformer,通过简单微调它们以关注从过去的激活中非参数派生的记忆来实现。通过利用冗余减少,我们的记忆巩固视觉Transformer(MC-ViT)轻松地将其上下文延伸到过去,并在学习更长的视频时展现出优秀的扩展行为。在这样做的过程中,MC-ViT在EgoSchema、感知测试和Diving48上实现了新的长时间上下文视频理解的最新技术成果,胜过了那些受益于数量级更多参数的方法。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决长时间序列视频编码中的上下文限制问题,提出了一种新的思路,即通过非参数化的方式从过去的激活中获取记忆,并在现有的预训练视频变压器模型上进行微调,从而扩展上下文。
  • 关键思路
    论文的关键思路是通过记忆整合技术,将过去的激活信息作为记忆输入到现有的预训练视频变压器模型中,从而扩展模型的上下文,使其能够更好地理解长时间序列视频。
  • 其它亮点
    论文提出的MC-ViT方法在多个数据集上取得了新的最优结果,同时还展现了很好的可扩展性。此外,论文还开源了代码和预训练模型,方便其他研究者进行复现和扩展。
  • 相关研究
    在相关研究方面,最近也有一些工作尝试解决长时间序列视频编码的问题,例如《Long-Range Temporal Convolutions for Action Recognition》和《Longformer: The Long-Document Transformer》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问