可缩放矢量图形(SVG)由于其无限可扩展的分辨率、多功能性和编辑能力,在现代图像渲染应用程序中变得不可或缺。SVG在Web开发和平面设计领域特别受欢迎。现有的使用深度学习进行SVG建模的方法通常难以生成复杂的SVG,并且受限于需要进行大量处理和简化的简单SVG。本文介绍了StarVector,这是一个多模态SVG生成模型,有效地集成了代码生成大型语言模型(CodeLLMs)和视觉模型。我们的方法利用CLIP图像编码器从基于像素的图像中提取视觉表示,然后通过适配器模块将其转换为视觉令牌。这些视觉令牌被预先添加到SVG令牌嵌入中,StarCoder模型使用下一个令牌预测对序列进行建模,从而有效地学习对齐视觉和代码令牌。这使得StarVector能够生成准确表示像素图像的不受限制的SVG。为了评估StarVector的性能,我们提出了SVG-Bench,这是一个全面的基准测试,用于评估多个数据集和相关指标的SVG方法。在这个基准测试中,我们介绍了包括SVG-Stack在内的新数据集,这是一个大规模的真实世界SVG示例数据集,并将其用于预训练SVG的大型基础模型StarVector。我们的结果表明,与当前方法相比,StarVector在视觉质量和复杂性处理方面有了显著的提高,标志着SVG生成技术的显着进步。代码和模型:https://github.com/joanrod/star-vector。
提问交流