ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

向作者提问

NEW

简介

我们介绍了一个新的基准测试，ChartMimic，旨在评估大型多模型模型（LMMs）的视觉基础代码生成能力。ChartMimic利用信息密集的视觉图表和文本说明作为输入，要求LMMs生成相应的图表渲染代码。ChartMimic包括1,000个人工策划（图，说明，代码）三元组，代表在各个领域（例如物理学，计算机科学，经济学等）的科学论文中发现的真实图表用例。这些图表涵盖了18种常规类型和4种高级类型，分为191个子类别。此外，我们提出了多级评估指标，以提供对输出代码和渲染图表的自动和彻底评估。与现有的代码生成基准测试不同，ChartMimic强调评估LMMs协调认知能力的能力，包括视觉理解，代码生成和跨模态推理。对3个专有模型和11个开放模型的评估突显了ChartMimic带来的巨大挑战。即使是先进的GPT-4V，Claude-3-opus的平均得分也只有73.2和53.7，表明有很大的改进空间。我们预计，ChartMimic将激发LMMs的发展，推动人工智能的普遍发展。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

ChartMimic论文旨在引入一个新的基准测试，以评估大型多模态模型的视觉代码生成能力。该基准测试要求模型根据信息密集的视觉图表和文本指令生成相应的代码以进行图表渲染。
关键思路

ChartMimic基于人类策划的1000个（图，指令，代码）三元组，代表在各个领域（如物理学，计算机科学，经济学等）的科学论文中发现的真实图表用例。这些图表涵盖18种常规类型和4种高级类型，分为191个子类别。此外，论文提出了多级评估指标，以提供对输出代码和渲染图表的自动和全面评估。
其它亮点

与现有的代码生成基准测试不同，ChartMimic强调评估多模态模型协调视觉理解、代码生成和跨模态推理的能力。使用3个专有模型和11个开放模型的评估突出了ChartMimic所面临的重大挑战。即使是高级GPT-4V，Claude-3-opus的平均得分也仅为73.2和53.7，表明仍有很大的改进空间。ChartMimic将激发LMMs的发展，推动人工智能的追求。
相关研究

在这个领域中，最近的相关研究包括CodeXGLUE和CoDraw。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问