Text-Based Reasoning About Vector Graphics

2024年04月09日
  • 简介
    虽然大型多模态模型在广泛的视觉语言基准测试中表现出色,但它们通常在需要精确感知低级视觉细节的任务中表现不佳,例如比较线段长度或解决简单的迷宫问题。特别是,在关于矢量图形的问答任务中,这种失败模式仍然存在。为了解决这个挑战,作者提出了一种名为“视觉描述语言模型”(VDLM)的模型,它可以对矢量图形进行基于文本的推理。VDLM利用可扩展矢量图形(SVG)进行更精确的视觉描述,并首先使用现成的栅格到SVG算法进行编码。由于现有的语言模型无法在零-shot情况下理解原始SVG,因此VDLM通过一个新引入的中间符号表示,即原始视觉描述(PVD),将SVG与预训练的语言模型进行了桥接。PVD是任务无关的,表示通用于所有矢量图形的视觉基元。它可以通过过程生成的(SVG,PVD)对进行学习,还可以直接使用LLMs进行复杂推理任务的泛化。通过将图像转换为基于文本的表示形式,我们可以利用语言模型的能力,从SVG到视觉基元学习对齐,并推广到未见过的问答任务。实证结果表明,在矢量图形的各种低级多模态感知和推理任务中,VDLM相对于最先进的LMMs(如GPT-4V)实现了更强的零-shot性能。此外,作者还对VDLM的性能进行了广泛的分析,证明了我们的框架由于其分离的感知和推理过程而提供了更好的可解释性。项目页面:https://mikewangwzhl.github.io/VDLM/
  • 图表
  • 解决问题
    论文试图解决在视觉语言任务中,现有的大型多模态模型在处理低级别视觉细节时表现不佳的问题,特别是在矢量图像方面的问答任务。
  • 关键思路
    论文提出了一种基于可伸缩矢量图形(SVG)的视觉描述语言模型(VDLM),通过中间符号表示Primal Visual Description(PVD)将SVG与预训练的语言模型相结合,以进行关于矢量图形的文本推理。
  • 其它亮点
    VDLM在各种低级别多模态感知和推理任务中实现了更强的零样本性能,比如在矢量图形上的线条长度比较和简单迷宫解决方面。VDLM的亮点包括使用SVG进行更精确的视觉描述,使用PVD作为中间符号表示来连接SVG和预训练语言模型,以及实现了更好的可解释性。论文使用了SVG和PVD的生成对来学习PVD,同时提供了开源代码。
  • 相关研究
    在这个领域的相关研究包括使用图像生成模型来生成SVG,以及使用视觉和语言的对齐来进行视觉推理。相关论文包括《Learning to Generate Vector Graphics from Sketches》和《Visual Reasoning with a Universal Transformer》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论