- 简介在视觉模型领域,主要的表示方式是使用像素来光栅化视觉世界。然而,这并不总是表示视觉内容的最佳或唯一方式,特别是对于使用几何原语(如多边形)描绘世界的设计师和艺术家来说。另一方面,矢量图形(VG)提供了视觉内容的文本表示,对于卡通或素描等内容来说,这种表示方式更加简洁和强大。最近的研究表明,使用能力强大的大型语言模型(LLM)处理矢量图形具有很好的效果。然而,这些研究仅关注定性结果、理解或特定类型的矢量图形。我们提出了VGBench,这是一个全面的基准测试,用于评估LLM在处理矢量图形方面的能力,包括(a)视觉理解和生成,(b)评估各种矢量图形格式,(c)多样化的问题类型,(d)广泛的提示技术,(e)在多个LLM下进行测试。在我们收集的4279个理解和5845个生成样本上进行评估,我们发现LLM在两个方面都表现出很强的能力,但在低级格式(SVG)上的性能不太理想。我们将公开数据和评估管道,网址为https://vgbench.github.io。
-
- 图表
- 解决问题本论文旨在通过提出VGBench综合评估模型处理矢量图的能力,包括视觉理解和生成,以及对不同矢量图格式、不同问答类型、不同提示技术和多种LLMs进行评估。
- 关键思路本论文的关键思路是提出了VGBench,一个全面的基准测试,用于评估LLMs处理矢量图的能力,并在不同方面进行评估。
- 其它亮点论文使用了4279个视觉理解和5845个生成样本进行评估,发现LLMs在两个方面都表现出强大的能力,但在低级格式(SVG)上表现不佳。同时,数据和评估流程也将开源。
- 最近的相关研究主要集中在使用大型语言模型处理矢量图上,但这些工作主要关注于定性结果、理解或特定类型的矢量图,没有像本文一样提出一个全面的基准测试。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流