MAVIS: Mathematical Visual Instruction Tuning

2024年07月11日
  • 简介
    多模态大型语言模型(MLLMs)最近在学术界和工业界中成为了一个重要的焦点。尽管它们在一般的多模态场景中表现出色,但在视觉环境下的数学问题解决能力仍未得到充分探索。我们确定了MLLMs中需要改进的三个关键领域:数学图示的视觉编码、图示语言对齐和数学推理能力。这引出了对视觉数学中大规模、高质量数据和训练流程的迫切需求。在本文中,我们提出了MAVIS,这是第一个针对MLLMs的MAthematical VISual instruction tuning paradigm,包括一系列数学视觉数据集和专门的MLLMs。针对这三个问题,MAVIS包含了三个从头开始的渐进式训练阶段。首先,我们策划了MAVIS-Caption,包括558K个图示-标题对,通过对比学习来微调数学专用视觉编码器(CLIP-Math),以改进图示的视觉编码。其次,我们利用MAVIS-Caption来通过投影层将CLIP-Math与大型语言模型(LLM)进行对齐,增强数学领域中的视觉语言对齐。第三,我们引入了MAVIS-Instruct,包括900K个精心收集和注释的视觉数学问题,最终用于指导MLLM的强大数学推理能力。在MAVIS-Instruct中,我们为每个问题都包含了完整的思路链(CoT)理由,并最小化文本冗余,从而将模型集中于视觉元素。数据和模型已发布在https://github.com/ZrrSkywalker/MAVIS上。
  • 作者讲解·1
  • 图表
  • 解决问题
    本文旨在探索多模态大型语言模型在数学问题视觉解决方面的不足,并提出了 MAVIS 解决方案。
  • 关键思路
    MAVIS 是一种针对 MLLMs 的 MAthematical VISual instruction 调整范式,包括三个从头开始的训练阶段,分别解决数学图表的视觉编码、图表语言对齐和数学推理技能等问题。
  • 其它亮点
    本文提出了 MAVIS-Caption 和 MAVIS-Instruct 两个数据集,分别用于训练数学特定的 CLIP-Math 视觉编码器和 MLLM。同时,本文还提出了链式推理思路,将 MAVIS-Instruct 中的完整推理过程引入模型,提高模型在数学推理方面的鲁棒性。数据集和模型已在 GitHub 上开源。
  • 相关研究
    近期的相关研究主要集中在多模态大型语言模型的应用方面,如 CLIP、DALL-E 等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问