InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

2025年08月25日
  • 简介
    我们推出了InternVL 3.5,这是一个新的开源多模态模型系列,在InternVL系列的基础上,显著提升了通用性、推理能力以及推理效率。其中一项关键创新是级联强化学习(Cascade RL)框架,它通过两个阶段提升推理能力:离线强化学习实现稳定收敛,以及在线强化学习进行精细对齐。这种由粗到细的训练策略在下游推理任务中带来了显著提升,例如在 MMMU 和 MathVista 任务上。为了优化效率,我们提出了视觉分辨率路由(Visual Resolution Router,ViR)机制,可在不牺牲性能的前提下动态调整视觉 token 的分辨率。结合 ViR,我们的解耦视觉-语言部署(Decoupled Vision-Language Deployment,DvD)策略将视觉编码器和语言模型部署在不同的 GPU 上,有效平衡了计算负载。这些创新共同使 InternVL3.5 相比前代模型 InternVL3 在整体推理性能上提升了高达 16.0%,推理速度也加快了 4.05 倍。此外,InternVL3.5 还支持图形用户界面(GUI)交互和具身智能等新功能。值得一提的是,我们最大的模型 InternVL3.5-241B-A28B 在通用多模态、推理、文本以及智能体任务方面,在开源多模态大语言模型(MLLM)中达到了最先进的水平,缩小了与 GPT-5 等领先商业模型之间的性能差距。所有模型和代码均已公开发布。
  • 图表
  • 解决问题
    论文试图解决多模态大模型(MLLM)在推理能力、效率以及部署方面的挑战。具体问题包括推理性能不足、视觉和语言处理的协同效率低下,以及模型在实际部署中的计算资源消耗过高等问题。这些问题在当前的多模态模型研究中是持续存在的挑战,但通过新的训练框架和部署策略来优化整体性能是一个相对较新的方向。
  • 关键思路
    论文提出了一种名为Cascade Reinforcement Learning (Cascade RL) 的训练框架,采用离线RL和在线RL的两阶段策略,以提升模型的推理能力。此外,引入了Visual Resolution Router(ViR)动态调整视觉token分辨率,并结合Decoupled Vision-Language Deployment(DvD)策略,实现高效的模型部署。这些方法相比当前研究,通过粗到细的训练策略和灵活的部署方式,显著提升了性能与效率。
  • 其它亮点
    1. 在MMM、MathVista等推理任务上取得了显著的性能提升(+16.0%) 2. 实现了4.05倍的推理速度提升,有效解决了多模态模型部署效率低的问题 3. 支持GUI交互和具身智能等新能力,拓展了模型的应用场景 4. 模型和代码全部开源,促进了后续研究和应用
  • 相关研究
    1. InternVL 3: InternVL 3.0 - A Modularized Multimodal Foundation Model for Unified Vision-Language Tasks 2. Flamingo: a Visual Language Model for Few-Shot Learning 3. KOSMOS-1: A Multimodal Language Model for General and Vision-Language Tasks 4. BLIP-2: Bootstrapping Language-Image Pre-training for Vision-Language Tasks
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论