G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model

简介

大型语言模型（LLMs）展现出了人类水平推理和生成能力的显著优越性，这鼓励人们广泛研究它们在数学问题解决中的应用。然而，目前的研究主要集中在基于文本的数学问题上，对涉及几何信息的问题的研究有限。为了解决这一问题，我们旨在通过理解图像输入来使LLMs能够解决几何问题。我们首先分析了当前多模态大型语言模型（MLLMs）在这个领域的局限性：它们难以准确理解基本的几何元素及其关系。为了克服这些挑战，我们利用几何问题的独特特征（如独特的几何逻辑形式和几何可扩展性）和文本LLMs的能力，基于现有数据构建了一个丰富的多模态几何数据集。增强的数据集Geo170K包含超过170K个几何图像-标题和问题-答案对。利用我们构建的Geo170K数据集，我们开发了G-LLaVA，它在解决几何问题方面表现出色，在MathVista基准测试中仅使用7B个参数就显著优于GPT-4-V。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本论文旨在解决当前多模态大型语言模型在解决几何问题方面的局限性，提出了一种利用图像输入解决几何问题的方法。
关键思路

论文利用几何问题的独特特征和文本LLMs的能力，构建了一个增强的多模态几何数据集Geo170K，并开发了G-LLaVA模型，在解决几何问题方面表现出色。
其它亮点

论文构建了一个包含170K个几何图像-标题和问题-答案对的数据集Geo170K，并提出了一种新的解决几何问题的方法。实验结果表明，G-LLaVA模型在MathVista基准测试中表现优异。论文还提供了开源代码。
相关研究

最近的相关研究主要集中在文本型数学问题上，对于涉及几何信息的问题研究较少。

G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model

提问交流

提问交流