First Multi-Dimensional Evaluation of Flowchart Comprehension for Multimodal Large Language Models

简介

随着多模态大语言模型（MLLMs）技术的发展，其通用能力越来越强大。为了评估MLLMs的各种能力，出现了许多评估系统。但目前仍缺乏一种综合方法来评估与流程图相关的MLLMs任务，这在日常生活和工作中非常重要。我们提出了第一个全面的方法FlowCE，以评估MLLMs在与流程图相关的任务中的各个维度，包括推理、定位识别、信息提取、逻辑验证和流程图摘要等方面的能力。然而，我们发现即使是GPT4o模型也只能得到56.63的分数。在开源模型中，Phi-3-Vision获得了最高的49.97分。我们希望FlowCE能对未来基于流程图的MLLMs研究做出贡献。\url{https://github.com/360AILAB-NLP/FlowCE}
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

缺乏综合评估多模态大语言模型在与流程图相关任务中的能力，论文提出了第一个综合评估方法FlowCE。
关键思路

FlowCE方法包括评估多模态大语言模型在流程图的推理、定位识别、信息提取、逻辑验证和摘要等方面的能力，但目前最高得分仅为56.63。
其它亮点

论文提供了一个新的综合评估方法FlowCE，可以为未来研究提供参考；实验使用了开源数据集和模型，可复现性较好。
相关研究

最近的相关研究主要集中在大语言模型的各种应用上，如自然语言处理、图像识别等。

First Multi-Dimensional Evaluation of Flowchart Comprehension for Multimodal Large Language Models

提问交流

提问交流