Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

2024年06月25日
  • 简介
    大型语言模型(LLMs)展示了令人印象深刻的推理能力,特别是在文本数学问题求解方面。然而,现有的开源图像指令微调数据集仅包含每个图像有限的问题-答案对,不能充分利用视觉信息来增强多模态数学推理能力的多模态LLMs(MLLMs)。为了弥补这一差距,我们通过收集来自24个现有数据集的40K高质量图像及其问题-答案对,并合成320K个新对,创建了MathV360K数据集,增强了多模态数学问题的广度和深度。我们介绍了Math-LLaVA,这是一个基于LLaVA-1.5模型,使用MathV360K进行微调的新方法。这种新方法显著提高了LLaVA-1.5的多模态数学推理能力,在MathVista的小型测试中取得了19分的提高,并表现出与GPT-4V相当的性能。此外,Math-LLaVA展示了增强的泛化能力,在MMMUBenchmark上显示出了显著的改进。我们的研究强调了数据集多样性和合成在提高MLLMs数学推理能力方面的重要性。代码和数据可在以下网址找到:\url{https://github.com/HZQ950419/Math-LLaVA}。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决现有开源图像指令微调数据集中每个图像的问题-答案对有限,无法充分利用视觉信息来增强多模式数学推理模型的能力的问题。论文提出了MathV360K数据集,其中包含40K个高质量图像及其问题-答案对,同时合成了320K个新的问题-答案对,从而增加了多模式数学问题的广度和深度。
  • 关键思路
    本文的关键思路是通过收集和合成大量多样化的数学问题-图像数据,来增强多模式数学推理模型的能力。作者使用MathV360K数据集对LLaVA-1.5模型进行了微调,显著提高了其数学推理能力,并展示了其在其他基准数据集上的泛化能力。
  • 其它亮点
    本文的亮点在于提出了一个新的数据集MathV360K,其中包含大量多样化的数学问题-图像数据,从而增强了多模式数学推理模型的能力。作者使用MathV360K数据集对LLaVA-1.5模型进行了微调,实现了显著的数学推理能力提升,并且在其他基准数据集上也展示了泛化能力。作者还提供了代码和数据集。
  • 相关研究
    在最近的研究中,也有一些关于多模式数学推理的相关工作,例如《MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms》和《MathDQN: Solving Arithmetic Word Problems via Deep Reinforcement Learning》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问