LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

向作者提问

NEW

简介

大型多模态模型（LMM）在结合文本思维链进行视频推理方面已展现出巨大潜力。然而，它们仍容易产生幻觉问题，尤其是在处理长视频时，由于证据稀疏且在时间上分散，这一问题尤为突出。受人类理解长视频方式的启发——即先整体浏览，再针对相关片段仔细查看细节——我们提出了LongVT，这是一种端到端的智能体框架，通过交错的“多模态工具思维链”实现“基于长视频的思考”。具体而言，我们利用LMM本身具备的时间定位能力，将其作为原生的视频裁剪工具，聚焦到特定视频片段，并重新采样更细粒度的视频帧。这种从全局到局部的推理循环持续进行，直到答案能够基于检索到的视觉证据得到充分支撑。鉴于目前缺乏适用于长视频推理任务的细粒度问答（QA）数据，我们整理并即将发布一个名为VideoSIAH的数据集套件，以支持训练与评估。具体而言，我们的训练数据集包含24.79万条样本，用于工具集成的冷启动监督微调；1600条样本用于智能体强化学习；以及1.54万条样本用于智能体强化微调。我们的评测基准则包含1280个问答对，这些数据通过人机协同的半自动数据流水线精心构建并经人工验证。凭借精心设计的三阶段训练策略和大量实证验证，LongVT在四个具有挑战性的长视频理解与推理基准测试中 consistently 超越了现有的强基线方法。我们的代码、数据及模型检查点已公开发布于 https://github.com/EvolvingLMMs-Lab/LongVT 。
作者讲解·1
- 讲解视频(1)
- 相关报道
图表
解决问题

论文旨在解决大型多模态模型（LMMs）在长视频理解与推理任务中易产生幻觉的问题，尤其是在证据稀疏且时间分布分散的长视频场景下。现有方法通常难以有效定位关键视觉证据，导致推理结果不可靠。这是一个随着多模态大模型应用于复杂视频任务而日益凸显的新问题。
关键思路

提出LongVT框架，通过‘交错式多模态工具思维链’（interleaved Multimodal Chain-of-Tool-Thought）实现端到端的代理式推理机制。核心思想是模仿人类观看长视频时先全局浏览、再聚焦关键片段的行为，利用LMM自身的时间定位能力作为原生‘视频裁剪工具’，实现从全局到局部的迭代推理，逐步聚焦高分辨率帧以获取支撑答案的视觉证据。
其它亮点

1. 构建并开源VideoSIAH数据集，包含247.9K训练样本和1,280个精细标注的QA测试对，填补长视频细粒度问答数据空白；2. 设计三阶段训练策略：工具集成冷启动微调、代理强化学习与代理强化微调；3. 实验在四个具有挑战性的长视频理解基准上验证了LongVT的优越性；4. 代码、模型权重与数据集已全部开源（https://github.com/EvolvingLMMs-Lab/LongVT），推动社区发展。
相关研究

1. Flamingo: Visual Language Models for Few-Shot Learning 2. Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models 3. KOSMOS-1: Multimodal Foundation Model with a Universal Interface 4. PaLM-E: An Embodied Multimodal Language Model 5. Think-on-Graph: Deep and Responsible Reasoning of Large Language Models on Knowledge Graphs

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问