- 简介本论文进行了一项实证研究,重新审视了多模态大型语言模型(MLLMs)的最新进展:视频助手。该研究名为FreeVA,旨在以无需训练的方式将现有的基于图像的MLLM扩展到视频领域。该研究提供了一个必要但必须了解的基准,并揭示了一些令人惊讶的发现:1)仅利用离线基于图像的MLLM而不进行额外训练的FreeVA在零-shot视频问答(例如MSVD-QA、ActivityNet-QA和MSRVTT-QA)方面表现出色,甚至超过了涉及视频指导调整的最先进方法。2)尽管主流的基于视频的MLLM通常是从基于图像的MLLM(例如LLaVA)开始初始化,然后使用视频指导调整进行微调,但该研究表明,使用广泛采用的VideoInstruct-100K进行视频指导调整实际上并不能比根本不进行训练更好。3)现有作品中常用的评估指标受GPT API版本随时间的变化影响显著。如果忽视这一点,可能会影响不同方法之间的公平性和一致性,并影响研究人员在该领域的分析和判断。MLLM的进步目前正在蓬勃发展,吸引了众多研究人员加入该领域。我们的目标是使这项工作成为一种即插即用、简单而有效的基准,鼓励直接评估现有的视频领域MLLM,同时在一定程度上规范视频对话模型领域。此外,我们鼓励研究人员重新考虑:当前的视频MLLM方法是否真正获得了超越图像MLLM的知识?代码可在https://github.com/whwu95/FreeVA获得。
-
- 图表
- 解决问题本文试图将现有的基于图像的多模态大语言模型(MLLM)扩展到视频领域,提出了一种无需额外训练的视频助手模型(FreeVA),并在零样本视频问答任务中进行了评估。
- 关键思路本文提出的FreeVA模型利用了仅基于图像的离线MLLM,不需要额外的训练,便在零样本视频问答任务上表现出色,并超过了涉及视频指导调整的最先进方法。
- 其它亮点本文的实验设计简单而有效,使用了多个数据集进行评估,并提供了开源代码。研究还揭示了一些意外的发现,包括使用VideoInstruct-100K进行视频指导调整实际上并没有带来更好的性能。此外,本文还强调了现有工作中常用的评估指标受GPT API版本变化的影响。这篇论文的贡献在于提供了一个简单有效的基准模型,鼓励直接评估现有的视频MLLM,并在一定程度上规范了视频对话模型的领域。
- 与本文相关的研究包括基于图像的MLLM和视频MLLM的先前工作,以及涉及视频问答任务的其他最新研究。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流