- 简介图表提供了数据的视觉表现形式,被广泛用于分析信息、解决问题和向他人传达见解。最近出现了各种与图表相关的下游任务,例如问答和摘要。解决这些任务的常见策略是微调原本用于视觉任务的各种模型。然而,这些特定任务的模型无法解决广泛的与图表相关的任务,限制了它们在实际应用中的适用性。为了克服这些挑战,我们引入了ChartInstruct:一个新颖的图表特定的视觉语言指令跟随数据集,包括191K条指令和71K个图表。然后,我们提出了两个不同的系统,用于在这些数据集上进行指令微调:(1)一个端到端模型,将图表理解的视觉编码器与LLM连接起来;(2)一个流水线模型,采用两步方法提取图表数据表并将其输入到LLM中。在四个下游任务的实验中,我们首先展示了我们模型的有效性——实现了一组新的最先进结果。进一步评估表明,我们的指令微调方法支持广泛的实际图表理解和推理场景,从而扩展了我们的模型的范围和适用性到新的任务类型。
- 图表
- 解决问题本论文旨在解决针对图表相关任务的模型不具备广泛适用性的问题,提出了一种基于图表和自然语言指令的视觉-语言模型。
- 关键思路论文提出了一个基于视觉编码器和LLM的端到端模型以及一个基于流水线的模型,用于图表理解和指令执行。通过在ChartInstruct数据集上进行实验,论文展示了其模型的有效性和实用性。
- 其它亮点论文提出了一个新的数据集ChartInstruct,包含191K个指令和71K个图表,用于图表理解和指令执行。论文提出了两种不同的模型来处理这个数据集,一个是端到端模型,另一个是基于流水线的模型。论文的实验结果显示,这两种模型能够在四个下游任务上获得最新的最佳结果。
- 最近在这个领域中,一些相关的研究包括:'Towards Comprehensive Vision-and-Language Understanding: A Large-Scale Multi-modal Multi-task Benchmark'和 'ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks'。
沙发等你来抢
去评论
评论
沙发等你来抢