Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

2024年05月13日
  • 简介
    Multi-modal Large Language Models(MLLMs)的显著进展引起了广泛关注,因为它们在视觉情境下的表现优异。然而,它们在将视觉图形转化为可执行代码方面的能力尚未得到充分评估。为了解决这个问题,我们引入了Plot2Code,这是一个全面的视觉编码基准,旨在公正和深入评估MLLMs。我们精心收集了来自公开可用的matplotlib图库的六种图表类型中的132个手动选择的高质量matplotlib图表。对于每个图表,我们仔细提供了其源代码和由GPT-4总结的描述性指令。这种方法使得Plot2Code能够广泛评估MLLMs在各种输入模态下的编码能力。此外,我们提出了三个自动评估指标,包括代码通过率、文本匹配比率和GPT-4V总体评分,以对输出代码和呈现图像进行细粒度评估。我们不仅仅判断通过或失败,而是采用GPT-4V对生成的图像和参考图像进行总体判断,这已被证明与人类评估一致。评估结果包括对14个MLLMs的分析,如专有的GPT-4V、Gemini-Pro和开源的Mini-Gemini,突出了Plot2Code所面临的重大挑战。通过Plot2Code,我们揭示了大多数现有MLLMs在针对文本密集型图表的视觉编码方面存在困难,严重依赖于文本指令。我们希望Plot2Code在视觉编码方面的评估结果能够指导未来MLLMs的发展。所有与Plot2Code相关的数据都可在https://huggingface.co/datasets/TencentARC/Plot2Code上获得。
  • 作者讲解
  • 图表
  • 解决问题
    评估多模态大语言模型(MLLMs)在将可视化图形转换为可执行代码方面的能力,以及发现现有MLLMs在此方面存在的挑战。
  • 关键思路
    引入Plot2Code,一个综合的视觉编码基准测试,包括132个手动选择的高质量matplotlib图形和GPT-4总结的指令,用于评估MLLMs的代码能力。提出三个自动评估指标,包括代码通过率、文本匹配率和GPT-4V综合评分。通过Plot2Code的评估结果,发现大多数现有的MLLMs在处理文本密集的图形时存在困难,严重依赖于文本指令。
  • 其它亮点
    实验使用了公开可用的matplotlib图库,并对14个MLLMs进行了评估,包括GPT-4V、Gemini-Pro和Mini-Gemini。提出了三个自动评估指标,并使用GPT-4V进行综合评分。数据集和代码均已开源。
  • 相关研究
    相关研究包括:1)使用MLLMs进行图像到代码的转换;2)使用视觉编程语言进行图形编码;3)使用深度学习方法进行图像分类和分割。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问