VGBench: Evaluating Large Language Models on Vector Graphics Understanding and Generation

简介

在视觉模型领域，主要的表示方式是使用像素来光栅化视觉世界。然而，这并不总是表示视觉内容的最佳或唯一方式，特别是对于使用几何原语（如多边形）描绘世界的设计师和艺术家来说。另一方面，矢量图形（VG）提供了视觉内容的文本表示，对于卡通或素描等内容来说，这种表示方式更加简洁和强大。最近的研究表明，使用能力强大的大型语言模型（LLM）处理矢量图形具有很好的效果。然而，这些研究仅关注定性结果、理解或特定类型的矢量图形。我们提出了VGBench，这是一个全面的基准测试，用于评估LLM在处理矢量图形方面的能力，包括（a）视觉理解和生成，（b）评估各种矢量图形格式，（c）多样化的问题类型，（d）广泛的提示技术，（e）在多个LLM下进行测试。在我们收集的4279个理解和5845个生成样本上进行评估，我们发现LLM在两个方面都表现出很强的能力，但在低级格式（SVG）上的性能不太理想。我们将公开数据和评估管道，网址为https://vgbench.github.io。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在通过提出VGBench综合评估模型处理矢量图的能力，包括视觉理解和生成，以及对不同矢量图格式、不同问答类型、不同提示技术和多种LLMs进行评估。
关键思路

本论文的关键思路是提出了VGBench，一个全面的基准测试，用于评估LLMs处理矢量图的能力，并在不同方面进行评估。
其它亮点

论文使用了4279个视觉理解和5845个生成样本进行评估，发现LLMs在两个方面都表现出强大的能力，但在低级格式（SVG）上表现不佳。同时，数据和评估流程也将开源。
相关研究

最近的相关研究主要集中在使用大型语言模型处理矢量图上，但这些工作主要关注于定性结果、理解或特定类型的矢量图，没有像本文一样提出一个全面的基准测试。

VGBench: Evaluating Large Language Models on Vector Graphics Understanding and Generation

提问交流

提问交流