- 简介我们提出了 Kimi-VL,这是一个高效的开源专家混合(MoE)视觉-语言模型(VLM),它具备先进的多模态推理能力、长上下文理解能力和强大的代理能力,同时其语言解码器仅激活 28 亿参数(Kimi-VL-A3B)。Kimi-VL 在多个具有挑战性的领域中表现出色:作为通用的视觉-语言模型,Kimi-VL 在多轮代理任务(例如 OSWorld)中表现出色,与旗舰模型相当。此外,它在各种复杂的视觉-语言任务中展现出卓越的能力,包括大学水平的图像和视频理解、光学字符识别(OCR)、数学推理和多图像理解。在对比评估中,Kimi-VL 有效竞争于最新的高效 VLM 模型,如 GPT-4o-mini、Qwen2.5-VL-7B 和 Gemma-3-12B-IT,并在若干关键领域超越了 GPT-4o。Kimi-VL 还在处理长上下文和清晰感知方面取得了进展。通过扩展至 128K 的上下文窗口,Kimi-VL 可以处理多样化的长输入,在 LongVideoBench 上得分为 64.5,在 MMLongBench-Doc 上得分为 35.1。其原生分辨率的视觉编码器 MoonViT 进一步使它能够看到并理解超高分辨率的视觉输入,在 InfoVQA 上得分为 83.2,在 ScreenSpot-Pro 上得分为 34.5,同时在常见任务中保持较低的计算成本。基于 Kimi-VL,我们还引入了一个先进的长思考变体:Kimi-VL-Thinking。该模型通过长链思维(CoT)监督微调(SFT)和强化学习(RL)开发,展现出强大的长时序推理能力。它在 MMMU 上得分为 61.7,在 MathVision 上得分为 36.8,在 MathVista 上得分为 71.3,同时保持紧凑的 28 亿激活参数的 LLM 规模,为高效的多模态思考模型树立了新的标准。代码和模型可在 https://github.com/MoonshotAI/Kimi-VL 公开获取。
- 图表
- 解决问题该论文试图构建一个高效且功能强大的开源多模态模型,解决现有视觉-语言模型在长上下文理解、复杂推理和高分辨率图像处理方面的不足。这是一个具有挑战性的问题,但并非全新的问题,因为许多研究已尝试通过不同的架构来优化多模态模型的性能。
- 关键思路Kimi-VL采用了一种基于Mixture-of-Experts (MoE) 的设计思路,结合了高效的参数激活机制和长上下文处理能力。其关键创新在于:1) 只激活2.8B参数的语言解码器以实现高性能的同时保持计算效率;2) 引入了MoonViT作为原生分辨率视觉编码器,支持超高清图像输入;3) 提出了Kimi-VL-Thinking变体,通过链式思维(CoT)监督微调和强化学习提升长时推理能力。相比其他高效VLMs,如GPT-4o-mini和Qwen2.5-VL-7B,Kimi-VL在多个任务上表现出色,同时维持较低的计算成本。
- 其它亮点1) Kimi-VL在多项基准测试中表现优异,例如LongVideoBench、MMLongBench-Doc、InfoVQA等;2) MoonViT能够高效处理超高分辨率图像,在ScreenSpot-Pro等任务中取得显著成绩;3) Kimi-VL-Thinking通过强化学习进一步增强了长期推理能力,并在数学推理任务中取得了突破性成果;4) 模型及代码已完全开源,为社区提供了宝贵的资源;5) 实验设计全面,涵盖了多种数据集,包括OSWorld、MMMU、MathVision等,验证了模型的泛化性和鲁棒性。
- 最近的相关研究包括:1) GPT-4o-mini,专注于轻量级视觉-语言任务;2) Qwen2.5-VL-7B,阿里巴巴推出的高效多模态模型;3) Gemma-3-12B-IT,由Meta开发的跨模态模型;4) LLaVA系列模型,强调多轮对话与视觉理解;5) BLIP-2,以图像-文本对齐和长上下文生成见长。这些研究共同推动了多模态模型在效率与性能上的进步。
沙发等你来抢
去评论
评论
沙发等你来抢