StarVector: Generating Scalable Vector Graphics Code from Images

向作者提问

NEW

简介

可缩放矢量图形（SVG）由于其无限可扩展的分辨率、多功能性和编辑能力，在现代图像渲染应用程序中变得不可或缺。SVG在Web开发和平面设计领域特别受欢迎。现有的使用深度学习进行SVG建模的方法通常难以生成复杂的SVG，并且受限于需要进行大量处理和简化的简单SVG。本文介绍了StarVector，这是一个多模态SVG生成模型，有效地集成了代码生成大型语言模型（CodeLLMs）和视觉模型。我们的方法利用CLIP图像编码器从基于像素的图像中提取视觉表示，然后通过适配器模块将其转换为视觉令牌。这些视觉令牌被预先添加到SVG令牌嵌入中，StarCoder模型使用下一个令牌预测对序列进行建模，从而有效地学习对齐视觉和代码令牌。这使得StarVector能够生成准确表示像素图像的不受限制的SVG。为了评估StarVector的性能，我们提出了SVG-Bench，这是一个全面的基准测试，用于评估多个数据集和相关指标的SVG方法。在这个基准测试中，我们介绍了包括SVG-Stack在内的新数据集，这是一个大规模的真实世界SVG示例数据集，并将其用于预训练SVG的大型基础模型StarVector。我们的结果表明，与当前方法相比，StarVector在视觉质量和复杂性处理方面有了显著的提高，标志着SVG生成技术的显着进步。代码和模型：https://github.com/joanrod/star-vector。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决SVG模型在生成复杂SVG图像方面的局限性，并提出了一种多模态SVG生成模型StarVector，结合了Code Generation Large Language Models（CodeLLMs）和视觉模型，以生成准确的SVG图像。
关键思路

论文的关键思路是将视觉表示从像素图像中提取出来，然后通过适配器模块将其转换为视觉标记，将这些视觉标记预置到SVG标记嵌入中，通过下一个标记预测建模序列，有效地学习对齐视觉和代码标记，从而使StarVector能够生成准确表现像素图像的不受限制的SVG图像。
其它亮点

论文提出了一个全面的SVG基准测试SVG-Bench，用于评估SVG方法在多个数据集和相关指标上的表现，并介绍了包括SVG-Stack在内的新数据集，用于预训练SVG的大型基础模型。实验结果表明，StarVector在视觉质量和复杂性处理方面相比当前方法有显著提升。论文代码和模型已经开源。
相关研究

近期在SVG生成方面的相关研究包括：Neural SVG Editor，Sketch-to-SVG，SVG-VAE和SVG-RL。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问