ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild

2024年07月04日
  • 简介
    由于图表在各个行业和科学领域中作为数据分析、可视化和决策工具的普及,人们越来越关注开发预训练的基础模型以及通用的图表理解和推理模型。然而,现有的方法在影响图表表示模型性能的两个关键方面存在重要缺陷:它们是基于图表底层数据表生成的数据训练的,忽略了图表图像中的视觉趋势和模式,并使用弱对齐的视觉语言骨干模型进行领域特定的训练,限制了在野外遇到图表时的泛化能力。我们解决了这些重要的缺陷,并介绍了ChartGemma,这是一种新颖的图表理解和推理模型,是在PaliGemma基础上开发的。与依赖于底层数据表不同,ChartGemma是在直接从图表图像生成的指令调整数据上训练的,因此可以捕捉来自各种图表的高级趋势和低级视觉信息。我们的简单方法在涵盖图表摘要、问题回答和事实核查的5个基准测试中实现了最先进的结果。我们对真实世界的图表进行了详细的定性研究,结果表明与同行相比,ChartGemma生成的摘要更加真实和准确。我们在https://github.com/vis-nlp/ChartGemma上发布了代码、模型检查点、数据集和演示。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决的问题是开发一个能够理解和推理图表的模型,并且解决现有方法在数据表和视觉信息不足的情况下的局限性。这是一个新问题。
  • 关键思路
    论文提出了一种新的图表理解和推理模型ChartGemma,该模型不依赖于数据表,而是直接从图表图像生成的指令调整数据进行训练,从而捕捉来自多种图表的高级趋势和低级视觉信息。该模型使用简单的方法达到了五个基准测试的最先进结果,并且在真实世界的图表上进行的定性研究表明ChartGemma相对于其他模型产生更现实和事实正确的摘要。
  • 其它亮点
    论文使用了ChartGemma模型来解决图表摘要、问答和事实检查等任务,并在五个基准测试中取得了最先进的结果。研究人员还进行了定性研究,证明ChartGemma相对于其他模型产生更现实和事实正确的摘要。研究人员公开了代码、模型检查点、数据集和演示。
  • 相关研究
    最近的相关研究包括使用神经网络进行图表理解和推理的工作,如NeuralChart和ChartNet。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问