FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding

简介

本文介绍了FlowLearn数据集，这是一个旨在增强对流程图理解的资源。FlowLearn包含复杂的科学流程图和模拟流程图。科学子集包含3,858个从科学文献中获取的流程图，而模拟子集包含使用可定制脚本创建的10,000个流程图。该数据集还包含有关视觉组件、OCR、Mermaid代码表示和VQA问答对的注释。尽管大型视觉语言模型（LVLMs）在各种视觉理解任务中已经证明了其有效性，但它们在解码流程图方面的有效性尚未得到彻底的调查。FlowLearn测试集旨在评估LVLMs在理解流程图方面的表现。我们的研究全面评估了最先进的LVLMs，确定了现有的限制，并为这个相对未开发领域的未来增强奠定了基础。例如，在涉及模拟流程图的任务中，GPT-4V在计算节点数量方面实现了最高的准确性（58％），而Claude在OCR任务中记录了最高的准确性（83％）。值得注意的是，在FlowLearn框架内的所有任务中，没有单一的模型表现出色，这突显了进一步发展的重大机会。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在通过引入FlowLearn数据集，评估大规模视觉-语言模型（LVLMs）在理解流程图方面的性能，以及为未来的研究提供基础。
关键思路

FlowLearn数据集包含科学流程图和模拟流程图，丰富了注释和VQA问答对。通过对现有的LVLMs进行评估，发现没有一种模型能在所有任务中表现出色，为未来的研究提供了发展机会。
其它亮点

FlowLearn数据集包含3,858个科学流程图和10,000个模拟流程图，注释了可视化组件、OCR、Mermaid代码表示和VQA问答对。实验结果表明，GPT-4V在计算节点数量方面表现最佳，达到了58%的准确率，Claude在OCR任务中表现最佳，达到了83%的准确率。本论文为未来的研究提供了基础，并指出了LVLMs在理解流程图方面的限制。
相关研究

最近的相关研究主要集中在大规模视觉-语言模型的应用上，如ViLBERT、LXMERT和UNITER等。

FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding

提问交流

提问交流