OneChart: Purify the Chart Structural Extraction via One Auxiliary Token

简介

图表解析因样式、数值、文本等多样性而面临重大挑战。即使是拥有数十亿参数的先进大视觉语言模型（LVLMs），也难以令人满意地处理此类任务。为解决这个问题，我们提出了OneChart：一个可靠的代理，专门用于结构化提取图表信息。类似于流行的LVLMs，OneChart包含一个自回归主体。独特的是，为了增强输出中数值部分的可靠性，我们引入了一个辅助标记，放置在总标记的开头，并提供了一个额外的解码器。经过数值优化的（辅助）标记通过因果关注，使得后续用于图表解析的标记能够捕捉到增强的数值特征。此外，借助辅助标记，我们设计了一个自我评估机制，使得模型可以通过为生成的内容提供置信度分数来评估其图表解析结果的可靠性。与当前最先进的图表解析模型（例如DePlot、ChartVLM、ChartAst）相比，OneChart在多个公共基准测试中的图表结构化提取的平均精度（AP）显著优于它们，尽管只有0.2亿个参数。此外，作为一个图表解析代理，它还为流行的LVLM（LLaVA-1.6）在下游ChartQA基准测试中带来了10%以上的准确率提升。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决图表结构提取的挑战，尤其是对于数字部分的可靠性问题。这是一个新问题。
关键思路

提出了一种名为OneChart的代理模型，利用辅助token和额外的解码器来提高数字部分的可靠性，并且引入了自我评估机制来评估模型生成的内容的可靠性。
其它亮点

OneChart在多个公共基准测试中的平均精度（AP）方面明显优于当前最先进的图表结构提取模型，同时只使用了0.2亿参数。此外，OneChart作为图表解析代理，还为下游的ChartQA基准测试带来了10%以上的准确率提升。
相关研究

相关研究包括DePlot、ChartVLM和ChartAst等图表结构提取模型。

OneChart: Purify the Chart Structural Extraction via One Auxiliary Token

提问交流

提问交流