Text-Based Reasoning About Vector Graphics

2024年04月09日
  • 简介
    虽然大型多模式模型在广泛的视觉语言基准测试中表现出色,但它们通常在需要精确感知低级视觉细节的任务中表现不佳,例如比较线条长度或解决简单的迷宫问题。特别是,在关于矢量图形的问答任务中,这种失败模式仍然存在——这些图像仅由2D对象和形状组成。为了解决这个挑战,作者提出了一种名为“可视化描述语言模型”(VDLM)的模型,它可以对矢量图形进行基于文本的推理。VDLM利用可伸缩矢量图形(SVG)进行更精确的视觉描述,并首先使用现成的栅格到SVG算法进行编码。由于现有的语言模型在零-shot情况下无法理解原始的SVG,因此VDLM通过一种新的中间符号表示——原始视觉描述(PVD)——将SVG与预训练语言模型连接起来。PVD是与任务无关的,表示对于所有矢量图形都是通用的视觉基元的原始属性(例如形状、位置、测量)及其相应的预测值。它可以通过过程生成的(SVG,PVD)对进行学习,并且还可以直接使用LLMs进行复杂推理任务的泛化。通过将图像转换为基于文本的表示形式,我们可以利用语言模型的能力,从SVG到视觉基元进行对齐并推广到未见过的问答任务。实证结果表明,在各种低级多模态感知和推理任务中,VDLM在矢量图形上实现了比最先进的LMMs(如GPT-4V)更强的零-shot性能。此外,作者还对VDLM的性能进行了广泛的分析,证明了我们的框架由于其分离的感知和推理过程而提供了更好的可解释性。项目页面:https://mikewangwzhl.github.io/VDLM/
  • 图表
  • 解决问题
    论文旨在解决大型多模态模型在处理低级视觉细节时的失败模式,特别是在处理关于矢量图形的问题时的失败模式。
  • 关键思路
    论文提出了一种名为VDLM的模型,它利用可缩放矢量图形(SVG)进行更精确的视觉描述,并通过中间符号表示(PVD)将SVG与预训练的语言模型联系起来。
  • 其它亮点
    VDLM在处理矢量图形的各种低级多模态知觉和推理任务方面表现出更强的零-shot性能,比当前的最先进的LMMs,如GPT-4V,表现更好。论文提供了广泛的分析和实验结果,证明了VDLM具有更好的可解释性。
  • 相关研究
    在最近的相关研究中,还有一些与VDLM相关的工作,如《Neural SVG Editor: An Optimizer for Vector Graphics Editing》和《SVG2Vec: Learning to Infer Semantic Meaning from SVGs》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论