SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models

简介

我们提出了SlowFast-LLaVA（简称SF-LLaVA），这是一种无需训练的视频大语言模型（LLM），可以同时捕捉详细的空间语义和长时间范围内的时间上下文，而不会超出常用LLM的令牌预算。这是通过使用两个流的SlowFast设计来实现的，用于聚合采样视频帧的特征，以有效的方式。具体而言，Slow路径以低帧率提取特征，同时尽可能保留空间细节（例如，使用24x24个令牌），而Fast路径以高帧率运行，但使用更大的空间池化步幅（例如，下采样6倍）以关注运动线索。因此，这种设计允许我们充分捕捉有益于理解视频细节的空间和时间特征。实验结果表明，SF-LLaVA在各种视频任务上优于现有的无需训练方法。在某些基准测试中，它的表现甚至可以与在视频数据集上微调的最先进的视频LLM相媲美甚至更好。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一种新的训练免费的视频大语言模型（LLM），以便能够同时捕捉详细的空间语义和长期的时间上下文。
关键思路

论文提出了一种名为SlowFast-LLaVA（SF-LLaVA）的视频LLM模型，通过两个流的SlowFast设计，从采样的视频帧中有效地聚合特征，以充分捕捉空间和时间特征。
其它亮点

实验结果表明，与现有的训练免费方法相比，SF-LLaVA在广泛的视频任务上表现出色，并且在某些基准测试中，其性能甚至可与在视频数据集上微调的最先进的视频LLMs相媲美。
相关研究

在这个领域中，最近的相关研究包括：《VideoBERT：一种用于视频理解的自监督方法》、《Temporal Cycle-Consistency Learning》、《Unsupervised Learning of Video Representations using LSTMs》等。

SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models

提问交流

提问交流