Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

2024年06月25日
  • 简介
    本文介绍了大型语言模型(LLMs)在文本数学问题求解方面的卓越推理能力。然而,现有的开源图像指令微调数据集仅包含每个图像有限的问题-答案对,未充分利用视觉信息增强多模态数学推理能力。为了弥补这一差距,本文通过收集来自24个现有数据集的40K高质量图像及其问题-答案对,并合成320K个新的问题-答案对,创建了MathV360K数据集,增强了多模态数学问题的广度和深度。本文介绍了Math-LLaVA,一种基于LLaVA-1.5模型微调MathV360K的新方法。这种新方法显著提高了LLaVA-1.5的多模态数学推理能力,在MathVista的minitest分割上实现了19个点的提高,并表现出与GPT-4V相当的性能。此外,Math-LLaVA表现出更好的泛化能力,在MMMUBenchmark上显示出实质性的改进。本研究强调了数据集多样性和合成对提高MLLMs的数学推理能力的重要性。本文提供了代码和数据,可在\url{https://github.com/HZQ950419/Math-LLaVA}上获得。
  • 图表
  • 解决问题
    本论文旨在解决现有开源图像指令微调数据集缺乏多模态数学推理能力的问题,通过收集40K高质量图像和320K个问题-答案对,创建了MathV360K数据集,提高了多模态数学问题的广度和深度。
  • 关键思路
    利用MathV360K数据集,通过对LLaVA-1.5模型进行微调,显著提高了多模态数学推理能力,实现了与GPT-4V相当的性能。
  • 其它亮点
    本研究通过收集数据和合成数据的方式,创造了一个高质量、多样化的数据集,提高了多模态数学问题的推理能力。实验结果表明,Math-LLaVA模型在MathVista的minitest数据集上表现显著。此外,该模型还表现出了更好的泛化性能,在MMMUBenchmark上也有显著提升。研究开源了代码和数据集,值得进一步研究。
  • 相关研究
    近期相关研究包括:"MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms"、"MathDQN: Solving Arithmetic Word Problems via Deep Reinforcement Learning"等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论