ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning

2024年03月14日
  • 简介
    图表提供了数据的视觉表现形式,被广泛用于分析信息、解决问题和向他人传达见解。最近出现了各种与图表相关的下游任务,例如问答和摘要。解决这些任务的常见策略是微调原本用于视觉任务的各种模型。然而,这些特定任务的模型无法解决广泛的与图表相关的任务,限制了它们在实际应用中的适用性。为了克服这些挑战,我们引入了ChartInstruct:一个新颖的图表特定的视觉语言指令跟随数据集,包括191K条指令和71K个图表。然后,我们提出了两个不同的系统,用于在这些数据集上进行指令微调:(1)一个端到端模型,将图表理解的视觉编码器与LLM连接起来;(2)一个流水线模型,采用两步方法提取图表数据表并将其输入到LLM中。在四个下游任务的实验中,我们首先展示了我们模型的有效性——实现了一组新的最先进结果。进一步评估表明,我们的指令微调方法支持广泛的实际图表理解和推理场景,从而扩展了我们的模型的范围和适用性到新的任务类型。
  • 图表
  • 解决问题
    本论文旨在解决针对图表相关任务的模型不具备广泛适用性的问题,提出了一种基于图表和自然语言指令的视觉-语言模型。
  • 关键思路
    论文提出了一个基于视觉编码器和LLM的端到端模型以及一个基于流水线的模型,用于图表理解和指令执行。通过在ChartInstruct数据集上进行实验,论文展示了其模型的有效性和实用性。
  • 其它亮点
    论文提出了一个新的数据集ChartInstruct,包含191K个指令和71K个图表,用于图表理解和指令执行。论文提出了两种不同的模型来处理这个数据集,一个是端到端模型,另一个是基于流水线的模型。论文的实验结果显示,这两种模型能够在四个下游任务上获得最新的最佳结果。
  • 相关研究
    最近在这个领域中,一些相关的研究包括:'Towards Comprehensive Vision-and-Language Understanding: A Large-Scale Multi-modal Multi-task Benchmark'和 'ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks'。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论