- 简介随着多模态大语言模型(MLLMs)技术的发展,它的通用能力越来越强大。为了评估MLLMs的各种能力,出现了许多评估系统。但是目前仍缺乏一种全面的方法来评估与流程图相关的MLLMs任务,这在日常生活和工作中非常重要。我们提出了第一个全面的方法FlowCE,用于评估与流程图相关的MLLMs在各个维度上的能力。它包括在流程图上评估MLLMs的推理、定位识别、信息提取、逻辑验证和摘要能力。然而,我们发现即使GPT4o模型也只能获得56.63的得分。在开源模型中,Phi-3-Vision获得了最高的49.97分。我们希望FlowCE能为未来基于流程图的多模态大语言模型(MLLMs)研究做出贡献。我们正在开源这个项目:\url{https://github.com/360AILAB-NLP/FlowCE}。
-
- 图表
- 解决问题缺乏全面的方法来评估与流程图相关的多模态大语言模型(MLLMs)的能力。本文提出了第一个综合方法FlowCE,以评估MLLMs在流程图相关任务中的推理、本地化识别、信息提取、逻辑验证和摘要等各个方面的能力。
- 关键思路FlowCE是第一个全面评估MLLMs在与流程图相关任务中各个方面能力的方法。
- 其它亮点实验结果表明,即使是GPT4o模型,也只能获得56.63的得分。而开源模型Phi-3-Vision获得了最高的49.97分。作者开源了FlowCE项目的代码,为未来的研究提供了贡献。
- 最近的相关研究包括对MLLMs在其他任务中的评估,以及在流程图识别和理解方面的研究,如《A Survey of Deep Learning Techniques for Flowchart Recognition》和《A Hybrid Approach for the Recognition and Interpretation of Flowcharts》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流