FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding

2024年07月06日
  • 简介
    本文介绍了FlowLearn数据集,这是一个旨在增强对流程图理解的资源。FlowLearn包含复杂的科学流程图和模拟流程图。科学子集包含3,858个从科学文献中获取的流程图,而模拟子集包含使用可定制脚本创建的10,000个流程图。该数据集还包含有关视觉组件、OCR、Mermaid代码表示和VQA问答对的注释。尽管大型视觉语言模型(LVLMs)在各种视觉理解任务中已经证明了其有效性,但它们在解码流程图方面的有效性尚未得到彻底的调查。FlowLearn测试集旨在评估LVLMs在理解流程图方面的表现。我们的研究全面评估了最先进的LVLMs,确定了现有的限制,并为这个相对未开发领域的未来增强奠定了基础。例如,在涉及模拟流程图的任务中,GPT-4V在计算节点数量方面实现了最高的准确性(58%),而Claude在OCR任务中记录了最高的准确性(83%)。值得注意的是,在FlowLearn框架内的所有任务中,没有单一的模型表现出色,这突显了进一步发展的重大机会。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在通过引入FlowLearn数据集,评估大规模视觉-语言模型(LVLMs)在理解流程图方面的性能,以及为未来的研究提供基础。
  • 关键思路
    FlowLearn数据集包含科学流程图和模拟流程图,丰富了注释和VQA问答对。通过对现有的LVLMs进行评估,发现没有一种模型能在所有任务中表现出色,为未来的研究提供了发展机会。
  • 其它亮点
    FlowLearn数据集包含3,858个科学流程图和10,000个模拟流程图,注释了可视化组件、OCR、Mermaid代码表示和VQA问答对。实验结果表明,GPT-4V在计算节点数量方面表现最佳,达到了58%的准确率,Claude在OCR任务中表现最佳,达到了83%的准确率。本论文为未来的研究提供了基础,并指出了LVLMs在理解流程图方面的限制。
  • 相关研究
    最近的相关研究主要集中在大规模视觉-语言模型的应用上,如ViLBERT、LXMERT和UNITER等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问