- 简介思维链(Chain-of-thought, CoT)推理已成为多模态大语言模型在视频理解任务中的一种有力工具。然而,相较于直接回答,其必要性及优势仍有待深入探讨。本文首先指出,对于经强化学习训练的视频模型而言,直接回答的表现常常与思维链相当,甚至更优,尽管思维链能生成逐步分析,但计算成本更高。受此启发,我们提出了VideoAuto-R1,一种采用“按需推理”策略的视频理解框架。在训练阶段,该方法遵循“思考一次,回答两次”的范式:模型首先生成一个初始答案,随后进行推理,并最终输出一个经过修正的答案;两个答案均通过可验证的奖励信号进行监督。在推理阶段,模型根据初始答案的置信度分数来判断是否启动进一步的推理过程。在多个视频问答和定位基准测试中,VideoAuto-R1在显著提升效率的同时达到了最先进的准确率,平均响应长度减少了约3.3倍,例如从149个词元减少至仅44个。此外,我们观察到,在以感知为主的任务中,模型启用推理模式的频率较低,而在需要复杂推理的任务中启用频率则明显升高。这表明,基于语言的显式推理通常是有益的,但并非在所有情况下都必不可少。
-
- 图表
- 解决问题论文探讨了链式思维(CoT)推理在多模态大语言模型视频理解任务中的必要性,质疑其相比直接回答是否真正带来性能提升。尽管CoT被广泛使用,但其高计算成本与实际收益之间的权衡尚未充分研究,尤其是在视频理解场景下。这虽然是一个已有关注的问题,但针对视频领域的系统性验证仍属较新方向。
- 关键思路提出VideoAuto-R1框架,采用“按需推理”策略:模型先生成初始答案(Thinking Once, Answering Twice),再决定是否进行显式推理并输出复核答案;训练时两个答案均受可验证奖励监督,推理阶段则根据初始答案的置信度动态决定是否启用推理模块。该思路挑战了‘始终使用CoT’的默认做法,强调效率与效果的平衡。
- 其它亮点在多个视频问答和定位基准上达到SOTA性能,同时将平均响应长度从149降至44个token,效率提升约3.3倍。实验显示感知类任务较少触发推理模式,而需要复杂推理的任务激活率更高,说明语言推理确有帮助但非必需。论文通过消融实验证明直接回答在RL训练下表现强劲,挑战现有范式。数据集包括MSVD-QA、MSRVTT-QA、ActivityNet-QA和Temporal-VLA等。代码已开源,值得进一步探索其在其他多模态任务中的泛化能力。
- 1. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 2. Video-ChatGPT: Towards Detailed Video Understanding via Large Vision-and-Language Models 3. Flamingo: a Visual Language Model for Few-Shot Learning 4. LLaVA: Large Language and Vision Assistant 5. Reasoning with Latent Thoughts in Diffusion Models
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流