IconShop: Text-Based Vector Icon Synthesis with Autoregressive Transformers

解决问题: 本篇论文旨在解决使用SVG格式创作自己的图标时所需学习曲线长、专业编辑软件难以使用等问题,提出了一种新的基于文本的矢量图标合成方法,旨在提高生成质量、多样性、灵活性和速度。

关键思路: 本文提出了一种名为IconShop的基于文本指导的矢量图标合成方法,使用自回归变压器将SVG路径和文本描述序列化和分词,使其成为可独特解码的命令序列,以此为输入,充分利用自回归变压器的序列学习能力,实现各种图标合成和操作任务。相比现有的基于图像和基于语言的方法,IconShop在生成质量、多样性、灵活性和速度方面均有所提高。

其他亮点: 本文的实验使用了大规模图标数据集,通过标准训练预测下一个标记来训练IconShop,并使用FID和CLIP分数以及视觉检查等方法对其进行了定量和定性评估,结果表明IconShop在图标合成性能方面优于现有的基于图像和基于语言的方法。此外,本文还演示了IconShop的灵活性,展示了两项新的图标操作任务:文本指导的图标填充和文本组合的图标合成。

关于作者: 本文的主要作者是Ronghuan Wu、Wanchao Su、Kede Ma和Jing Liao,他们分别来自中国科学技术大学。根据数据库,他们之前的代表作包括《基于GAN的多层次图像融合》、《基于图像分割的图像转换》等。

相关研究: 近期其他相关的研究包括:

  1. "GAN-Icon: Generative Adversarial Networks for Icon Synthesis",作者:Xiaojuan Qi,机构:南京大学;
  2. "Icon2Vec: Learning to Vectorize Icons with Style Consistency",作者:Xiaoyang Huang等,机构:香港中文大学;
  3. "SVG-VAE: Generating Scalable Vector Graphics via Variational Autoencoder",作者:Jianan Li等,机构:南京大学。

论文摘要:本文介绍了一种名为IconShop的文本引导矢量图标合成方法,该方法使用自回归变换器。该方法的成功关键在于将SVG路径(和文本描述)序列化和标记化为唯一可解码的命令序列。通过在大规模图标数据集上进行标准训练,预测下一个标记,该方法在图标合成性能方面表现比现有的基于图像和基于语言的方法更好,无论是在定量(使用FID和CLIP得分)还是在定性(通过视觉检查)方面。同时,我们观察到生成多样性的显著提高,这得到了客观措施(独特性和新颖性)的支持。更重要的是,我们展示了IconShop的灵活性,展示了两个新颖的图标操作任务——文本引导的图标填充和文本组合的图标合成。

内容中包含的图片若涉及版权问题,请及时与我们联系删除