智源TALK｜多模态最新进展，从全透明的推理配方到视频原生工具调用OpenMMReasoner & LongVT

报告日期：12月10日（周三）10:30-12:00

报告要点:

报告一：激励长视频推理LongVT，多模态交替思维链和原生工具调用

将由南洋理工大学杨祖豪、香港科技大学（广州）王肃东、南洋理工大学张恺宸和MiroMind研究员李星漩进行分享。

LongVT 是针对长视频理解中“证据稀疏”与“容易幻觉”痛点提出的端到端解决方案。针对传统模型被动接收信息的局限，LongVT 创新性地引入了 Global-to-Local 的主动浏览策略，激发模型原生的工具调用能力：先全局略读建立假设，再主动调用 crop_video 工具截取片段、重采帧精读细节，形成真正“会自己翻视频”的思维链。

在训练架构层面，团队设计了从冷启动 SFT、Agentic RL 到 Agentic RFT 的全栈协同优化方案。通过在强化学习中联合优化“答案正确性 + 时间定位准确性”，迫使模型学会“少看但看对”，并将高质量 RL 轨迹蒸馏回 SFT 数据中以稳固长程推理能力。

此外，团队构建并开源了面向“长视频大海捞针”场景的 VideoSIAH 数据套件（含 ~250K 工具调用数据与自蒸馏轨迹），填补了精细化时序推理评估的空白。LongVT 在 VideoMME、LVBench 等多个基准上均取得开源模型 SOTA 性能，显著缩小了与 GPT-4o 等闭源模型的差距

报告二：OpenMMReasoner多模态推理模型，解决透明度和可复现性问题

将由南洋理工大学张恺宸，清华大学吴科明、南洋理工大学杨祖豪和MiroMind研究员李星漩进行分享。

最近，大模型在推理能力方面的进展激发了人们将此类能力扩展到多模态领域的浓厚兴趣。然而，尽管视觉推理已取得显著进步，但在数据构建和训练策略方面缺乏透明性和可复现性，仍是制约该领域规模化研究的主要障碍。在本研究中，我们提出了OpenMMReasoner，一种完全透明的、包含两个阶段的多模态推理训练方案，涵盖监督微调（SFT）和强化学习（RL）两个阶段。在SFT阶段，我们构建了一个包含87.4万样本的冷启动数据集，并通过严格的逐步验证确保数据质量，为模型推理能力打下坚实基础。随后的RL阶段则利用覆盖多个领域的7.4万样本数据集，进一步提升并稳定模型的推理能力，从而实现更稳健且高效的学习过程。大量实验评估表明，我们的训练方案不仅显著优于多个强基线方法，而且凸显了数据质量和训练设计在塑造多模态推理性能中的关键作用。

值得注意的是，我们的方法在九项多模态推理基准测试上的表现相较Qwen2.5-VL-7B-Instruct基线提升了11.6%，为未来大规模多模态推理研究奠定了坚实的实证基础。已在https://github.com/EvolvingLMMs-Lab/OpenMMReasoner上公开了全部代码、训练流程和数据。

报告嘉宾：

杨祖豪，新加坡南洋理工大学二年级博士生，师从吕时健教授。目前在 MiroMind AI 实习，受邴立东博士的指导与监督，主要研究多模态视频大模型的推理 / 智能体 / 长期记忆。

王肃东，香港科技大学（广州）一年级博士生，师从秦成伟教授。目前在 MiroMind AI 实习，受邴立东博士的指导与监督，主要的研究方向是多模态大模型的可解释性/复杂推理/智能体。

张恺宸，本科毕业于新加坡南洋理工大学，目前在 MiroMind AI 实习，受邴立东博士的指导与监督，主要研究多模态视频大模型的推理/评估/agent 等。

吴科明，清华大学博一，主要研究方向是可控图像生成与多模态推理。

李星漩，MiroMind研究员。新加坡南洋理工大学与阿里达摩院联培博士，师从Shafiq Joty、邴立东老师。主要研究大语言模型、多模态大模型的推理 / 智能体。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题，请及时与我们联系删除

智源TALK｜多模态最新进展，从全透明的推理配方到视频原生工具调用OpenMMReasoner & LongVT

评论列表

评论