Foundation Models for Video Understanding: A Survey

简介

视频基础模型（ViFMs）旨在学习各种视频理解任务的通用表示。通过利用大规模数据集和强大模型，ViFMs通过从视频数据中捕获强大和通用特征来实现这一目标。本调查分析了超过200个视频基础模型，提供了对14个不同视频任务的基准和评估指标的全面概述，这些任务分为3个主要类别。此外，我们针对6个最常见的视频任务对这些模型进行了深入的性能分析。我们将ViFMs分为三类：1）基于图像的ViFMs，这些模型是将现有的图像模型用于视频任务；2）基于视频的ViFMs，这些模型使用视频特定的编码方法；3）通用基础模型（UFMs），这些模型在单个框架内结合多个模态（图像、视频、音频和文本等）。通过比较不同ViFMs在不同任务上的表现，本调查提供了有价值的见解，指导未来在视频理解方面的进展。我们的分析令人惊讶地发现，基于图像的基础模型在大多数视频理解任务上始终优于基于视频的模型。此外，利用多样化模态的UFMs在视频任务上表现出优异的性能。我们在以下链接中分享了本研究中研究的ViFMs的全面列表：\url{https://github.com/NeeluMadan/ViFM_Survey.git}。
图表
解决问题

视频基础模型（ViFMs）试图学习各种视频理解任务的通用表示，本文分析了200多个ViFMs，并提供了对14个不同视频任务的基准和评估指标的全面概述。
关键思路

本文将ViFMs分为三类：1）基于图像的ViFMs，2）基于视频的ViFMs和3）通用基础模型（UFMs），并比较它们在不同任务上的性能。
其它亮点

本文发现，基于图像的基础模型在大多数视频理解任务上始终优于基于视频的模型。此外，利用多种模态的UFMs在视频任务上表现出优越性能。作者还分享了一个包含所有研究的ViFMs的列表。
相关研究

最近在这个领域中，还有一些相关的研究，如《Temporal Pyramid Network for Action Recognition》、《Non-Local Neural Networks》等。

Foundation Models for Video Understanding: A Survey

评论