Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

向作者提问

NEW

简介

Multi-modal Large Language Models（MLLMs）的显著进展引起了广泛关注，因为它们在视觉情境下的表现优异。然而，它们在将视觉图形转化为可执行代码方面的能力尚未得到充分评估。为了解决这个问题，我们引入了Plot2Code，这是一个全面的视觉编码基准，旨在公正和深入评估MLLMs。我们精心收集了来自公开可用的matplotlib图库的六种图表类型中的132个手动选择的高质量matplotlib图表。对于每个图表，我们仔细提供了其源代码和由GPT-4总结的描述性指令。这种方法使得Plot2Code能够广泛评估MLLMs在各种输入模态下的编码能力。此外，我们提出了三个自动评估指标，包括代码通过率、文本匹配比率和GPT-4V总体评分，以对输出代码和呈现图像进行细粒度评估。我们不仅仅判断通过或失败，而是采用GPT-4V对生成的图像和参考图像进行总体判断，这已被证明与人类评估一致。评估结果包括对14个MLLMs的分析，如专有的GPT-4V、Gemini-Pro和开源的Mini-Gemini，突出了Plot2Code所面临的重大挑战。通过Plot2Code，我们揭示了大多数现有MLLMs在针对文本密集型图表的视觉编码方面存在困难，严重依赖于文本指令。我们希望Plot2Code在视觉编码方面的评估结果能够指导未来MLLMs的发展。所有与Plot2Code相关的数据都可在https://huggingface.co/datasets/TencentARC/Plot2Code上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估多模态大语言模型（MLLMs）在将可视化图形转换为可执行代码方面的能力，以及发现现有MLLMs在此方面存在的挑战。
关键思路

引入Plot2Code，一个综合的视觉编码基准测试，包括132个手动选择的高质量matplotlib图形和GPT-4总结的指令，用于评估MLLMs的代码能力。提出三个自动评估指标，包括代码通过率、文本匹配率和GPT-4V综合评分。通过Plot2Code的评估结果，发现大多数现有的MLLMs在处理文本密集的图形时存在困难，严重依赖于文本指令。
其它亮点

实验使用了公开可用的matplotlib图库，并对14个MLLMs进行了评估，包括GPT-4V、Gemini-Pro和Mini-Gemini。提出了三个自动评估指标，并使用GPT-4V进行综合评分。数据集和代码均已开源。
相关研究

相关研究包括：1）使用MLLMs进行图像到代码的转换；2）使用视觉编程语言进行图形编码；3）使用深度学习方法进行图像分类和分割。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问