First Multi-Dimensional Evaluation of Flowchart Comprehension for Multimodal Large Language Models

简介

随着多模态大语言模型（MLLMs）技术的发展，它的通用能力越来越强大。为了评估MLLMs的各种能力，出现了许多评估系统。但是目前仍缺乏一种全面的方法来评估与流程图相关的MLLMs任务，这在日常生活和工作中非常重要。我们提出了第一个全面的方法FlowCE，用于评估与流程图相关的MLLMs在各个维度上的能力。它包括在流程图上评估MLLMs的推理、定位识别、信息提取、逻辑验证和摘要能力。然而，我们发现即使GPT4o模型也只能获得56.63的得分。在开源模型中，Phi-3-Vision获得了最高的49.97分。我们希望FlowCE能为未来基于流程图的多模态大语言模型（MLLMs）研究做出贡献。我们正在开源这个项目：\url{https://github.com/360AILAB-NLP/FlowCE}。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

缺乏全面的方法来评估与流程图相关的多模态大语言模型（MLLMs）的能力。本文提出了第一个综合方法FlowCE，以评估MLLMs在流程图相关任务中的推理、本地化识别、信息提取、逻辑验证和摘要等各个方面的能力。
关键思路

FlowCE是第一个全面评估MLLMs在与流程图相关任务中各个方面能力的方法。
其它亮点

实验结果表明，即使是GPT4o模型，也只能获得56.63的得分。而开源模型Phi-3-Vision获得了最高的49.97分。作者开源了FlowCE项目的代码，为未来的研究提供了贡献。
相关研究

最近的相关研究包括对MLLMs在其他任务中的评估，以及在流程图识别和理解方面的研究，如《A Survey of Deep Learning Techniques for Flowchart Recognition》和《A Hybrid Approach for the Recognition and Interpretation of Flowcharts》。

First Multi-Dimensional Evaluation of Flowchart Comprehension for Multimodal Large Language Models

提问交流

提问交流