- 简介可缩放矢量图形(SVG)由于其无限可扩展的分辨率、多功能性和编辑能力,在现代图像渲染应用程序中变得不可或缺。SVG在Web开发和平面设计领域特别受欢迎。现有的使用深度学习进行SVG建模的方法通常难以生成复杂的SVG,并且受限于需要进行大量处理和简化的简单SVG。本文介绍了StarVector,这是一个多模态SVG生成模型,有效地集成了代码生成大型语言模型(CodeLLMs)和视觉模型。我们的方法利用CLIP图像编码器从基于像素的图像中提取视觉表示,然后通过适配器模块将其转换为视觉令牌。这些视觉令牌被预先添加到SVG令牌嵌入中,StarCoder模型使用下一个令牌预测对序列进行建模,从而有效地学习对齐视觉和代码令牌。这使得StarVector能够生成准确表示像素图像的不受限制的SVG。为了评估StarVector的性能,我们提出了SVG-Bench,这是一个全面的基准测试,用于评估多个数据集和相关指标的SVG方法。在这个基准测试中,我们介绍了包括SVG-Stack在内的新数据集,这是一个大规模的真实世界SVG示例数据集,并将其用于预训练SVG的大型基础模型StarVector。我们的结果表明,与当前方法相比,StarVector在视觉质量和复杂性处理方面有了显著的提高,标志着SVG生成技术的显着进步。代码和模型:https://github.com/joanrod/star-vector。
- 图表
- 解决问题本论文旨在解决SVG模型在生成复杂SVG图像方面的局限性,并提出了一种多模态SVG生成模型StarVector,结合了Code Generation Large Language Models(CodeLLMs)和视觉模型,以生成准确的SVG图像。
- 关键思路论文的关键思路是将视觉表示从像素图像中提取出来,然后通过适配器模块将其转换为视觉标记,将这些视觉标记预置到SVG标记嵌入中,通过下一个标记预测建模序列,有效地学习对齐视觉和代码标记,从而使StarVector能够生成准确表现像素图像的不受限制的SVG图像。
- 其它亮点论文提出了一个全面的SVG基准测试SVG-Bench,用于评估SVG方法在多个数据集和相关指标上的表现,并介绍了包括SVG-Stack在内的新数据集,用于预训练SVG的大型基础模型。实验结果表明,StarVector在视觉质量和复杂性处理方面相比当前方法有显著提升。论文代码和模型已经开源。
- 近期在SVG生成方面的相关研究包括:Neural SVG Editor,Sketch-to-SVG,SVG-VAE和SVG-RL。
沙发等你来抢
去评论
评论
沙发等你来抢