Memory Consolidation Enables Long-Context Video Understanding

向作者提问

NEW

简介

大多数基于Transformer的视频编码器由于其二次复杂度而受到短暂时间上下文的限制。虽然已经尝试了各种方法来扩展这个上下文，但这通常是以概念和计算复杂度的代价为代价的。我们提议重新利用现有的预训练视频Transformer，通过简单微调它们以关注从过去的激活中非参数派生的记忆来实现。通过利用冗余减少，我们的记忆巩固视觉Transformer（MC-ViT）轻松地将其上下文延伸到过去，并在学习更长的视频时展现出优秀的扩展行为。在这样做的过程中，MC-ViT在EgoSchema、感知测试和Diving48上实现了新的长时间上下文视频理解的最新技术成果，胜过了那些受益于数量级更多参数的方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决长时间序列视频编码中的上下文限制问题，提出了一种新的思路，即通过非参数化的方式从过去的激活中获取记忆，并在现有的预训练视频变压器模型上进行微调，从而扩展上下文。
关键思路

论文的关键思路是通过记忆整合技术，将过去的激活信息作为记忆输入到现有的预训练视频变压器模型中，从而扩展模型的上下文，使其能够更好地理解长时间序列视频。
其它亮点

论文提出的MC-ViT方法在多个数据集上取得了新的最优结果，同时还展现了很好的可扩展性。此外，论文还开源了代码和预训练模型，方便其他研究者进行复现和扩展。
相关研究

在相关研究方面，最近也有一些工作尝试解决长时间序列视频编码的问题，例如《Long-Range Temporal Convolutions for Action Recognition》和《Longformer: The Long-Document Transformer》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问