- 简介随着高质量数据的增长和视觉预训练范式的进步,视频基础模型(VFMs)最近取得了显著进展,在传统视频理解基准测试中展现出了卓越的性能。然而,现有的基准测试(如Kinetics)及其评估协议往往受到相对较差的多样性、高评估成本和饱和的性能指标的限制。本文建立了一个全面的基准测试套件,以解决这些问题,即VideoEval。具体而言,我们从两个角度建立了视频任务适应基准测试(VidTAB)和视频嵌入基准测试(VidEB):在少样本条件下评估VFMs的任务适应性,并通过直接应用于下游任务来评估其表示能力。通过VideoEval,我们对20个流行的开源视觉基础模型进行了大规模研究。我们的研究揭示了一些有见地的VFMs发现:1)总体而言,当前VFMs在各种任务中表现出弱的泛化能力,2)增加视频数据,无论是标记的还是弱标记的视频文本对,并不一定能提高任务性能,3)一些预训练范式的有效性可能没有在以前的基准测试中得到充分验证,4)结合不同的预训练范式可以帮助提高泛化能力。我们相信,这项研究是对当前VFMs评估的重要补充,并为未来的研究提供了有价值的见解。
- 图表
- 解决问题论文试图建立一个全面的基准套件VideoEval,以解决现有基准测试在多样性、评估成本和饱和度指标方面存在的问题,从而评估视频基础模型的任务适应性和表示能力。
- 关键思路论文建立了两个基准测试:Video Task Adaption Benchmark (VidTAB)和Video Embedding Benchmark (VidEB),从任务适应性和表示能力两个角度评估视频基础模型的性能,并在20个开源视觉基础模型上进行了大规模研究,揭示了当前视频基础模型的一些洞见和问题。
- 其它亮点论文发现:1)总体上,当前视频基础模型在不同任务上表现出弱的泛化能力;2)增加视频数据并不一定能提高任务性能;3)一些预训练范式的有效性可能没有在以前的基准测试中得到充分验证;4)组合不同的预训练范式可以帮助提高模型的泛化能力。
- 相关研究包括但不限于:1)Kinetics数据集和评估协议;2)视频理解基准测试;3)视觉预训练模型的研究。
沙发等你来抢
去评论
评论
沙发等你来抢