SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models

2024年07月22日
  • 简介
    我们提出了SlowFast-LLaVA(简称SF-LLaVA),这是一种无需训练的视频大语言模型(LLM),可以同时捕捉详细的空间语义和长时间范围内的时间上下文,而不会超出常用LLM的令牌预算。这是通过使用两个流的SlowFast设计来实现的,用于聚合采样视频帧的特征,以有效的方式。具体而言,Slow路径以低帧率提取特征,同时尽可能保留空间细节(例如,使用24x24个令牌),而Fast路径以高帧率运行,但使用更大的空间池化步幅(例如,下采样6倍)以关注运动线索。因此,这种设计允许我们充分捕捉有益于理解视频细节的空间和时间特征。实验结果表明,SF-LLaVA在各种视频任务上优于现有的无需训练方法。在某些基准测试中,它的表现甚至可以与在视频数据集上微调的最先进的视频LLM相媲美甚至更好。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在提出一种新的训练免费的视频大语言模型(LLM),以便能够同时捕捉详细的空间语义和长期的时间上下文。
  • 关键思路
    论文提出了一种名为SlowFast-LLaVA(SF-LLaVA)的视频LLM模型,通过两个流的SlowFast设计,从采样的视频帧中有效地聚合特征,以充分捕捉空间和时间特征。
  • 其它亮点
    实验结果表明,与现有的训练免费方法相比,SF-LLaVA在广泛的视频任务上表现出色,并且在某些基准测试中,其性能甚至可与在视频数据集上微调的最先进的视频LLMs相媲美。
  • 相关研究
    在这个领域中,最近的相关研究包括:《VideoBERT:一种用于视频理解的自监督方法》、《Temporal Cycle-Consistency Learning》、《Unsupervised Learning of Video Representations using LSTMs》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问