MAVIS: Mathematical Visual Instruction Tuning

简介

多模态大型语言模型（MLLMs）最近在学术界和工业界中成为了一个重要的焦点。尽管它们在一般的多模态场景中表现出色，但在视觉环境下的数学问题解决能力仍未得到充分探索。我们确定了MLLMs中需要改进的三个关键领域：数学图示的视觉编码、图示语言对齐和数学推理能力。这引出了对视觉数学中大规模、高质量数据和训练流程的迫切需求。在本文中，我们提出了MAVIS，这是第一个针对MLLMs的MAthematical VISual instruction tuning paradigm，包括一系列数学视觉数据集和专门的MLLMs。针对这三个问题，MAVIS包含了三个从头开始的渐进式训练阶段。首先，我们策划了MAVIS-Caption，包括558K个图示-标题对，通过对比学习来微调数学专用视觉编码器（CLIP-Math），以改进图示的视觉编码。其次，我们利用MAVIS-Caption来通过投影层将CLIP-Math与大型语言模型（LLM）进行对齐，增强数学领域中的视觉语言对齐。第三，我们引入了MAVIS-Instruct，包括900K个精心收集和注释的视觉数学问题，最终用于指导MLLM的强大数学推理能力。在MAVIS-Instruct中，我们为每个问题都包含了完整的思路链（CoT）理由，并最小化文本冗余，从而将模型集中于视觉元素。数据和模型已发布在https://github.com/ZrrSkywalker/MAVIS上。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本文旨在探索多模态大型语言模型在数学问题视觉解决方面的不足，并提出了 MAVIS 解决方案。
关键思路

MAVIS 是一种针对 MLLMs 的 MAthematical VISual instruction 调整范式，包括三个从头开始的训练阶段，分别解决数学图表的视觉编码、图表语言对齐和数学推理技能等问题。
其它亮点

本文提出了 MAVIS-Caption 和 MAVIS-Instruct 两个数据集，分别用于训练数学特定的 CLIP-Math 视觉编码器和 MLLM。同时，本文还提出了链式推理思路，将 MAVIS-Instruct 中的完整推理过程引入模型，提高模型在数学推理方面的鲁棒性。数据集和模型已在 GitHub 上开源。
相关研究

近期的相关研究主要集中在多模态大型语言模型的应用方面，如 CLIP、DALL-E 等。

MAVIS: Mathematical Visual Instruction Tuning

提问交流

提问交流