First Multi-Dimensional Evaluation of Flowchart Comprehension for Multimodal Large Language Models

2024年06月14日
  • 简介
    随着多模态大语言模型(MLLMs)技术的发展,其通用能力越来越强大。为了评估MLLMs的各种能力,出现了许多评估系统。但目前仍缺乏一种综合方法来评估与流程图相关的MLLMs任务,这在日常生活和工作中非常重要。我们提出了第一个全面的方法FlowCE,以评估MLLMs在与流程图相关的任务中的各个维度,包括推理、定位识别、信息提取、逻辑验证和流程图摘要等方面的能力。然而,我们发现即使是GPT4o模型也只能得到56.63的分数。在开源模型中,Phi-3-Vision获得了最高的49.97分。我们希望FlowCE能对未来基于流程图的MLLMs研究做出贡献。\url{https://github.com/360AILAB-NLP/FlowCE}
  • 作者讲解
  • 图表
  • 解决问题
    缺乏综合评估多模态大语言模型在与流程图相关任务中的能力,论文提出了第一个综合评估方法FlowCE。
  • 关键思路
    FlowCE方法包括评估多模态大语言模型在流程图的推理、定位识别、信息提取、逻辑验证和摘要等方面的能力,但目前最高得分仅为56.63。
  • 其它亮点
    论文提供了一个新的综合评估方法FlowCE,可以为未来研究提供参考;实验使用了开源数据集和模型,可复现性较好。
  • 相关研究
    最近的相关研究主要集中在大语言模型的各种应用上,如自然语言处理、图像识别等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问