- 简介为了利用LLM进行视觉合成,传统方法通过专门的视觉模块将光栅图像信息转换为离散的网格标记,同时破坏了模型捕捉视觉场景真实语义表示的能力。本文认为,一种替代的图像表示方式——矢量图形,可以通过启用更自然且语义一致的图像信息分割来有效克服这种限制。因此,我们介绍了StrokeNUWA,一个开创性的工作,探索在矢量图形上更好的视觉表示“笔画标记”,这种表示方法本质上具有视觉语义丰富、与LLM自然兼容且高度压缩的特点。配备笔画标记,StrokeNUWA在矢量图形生成任务中可以显著超越传统的基于LLM和基于优化的方法,在各种指标上都有很好的表现。此外,StrokeNUWA在推理速度上实现了高达94倍的提升,而其SVG代码压缩比例也达到了6.9%的异常水平。
- 图表
- 解决问题本文旨在解决利用传统方法将栅格图像信息转换为离散网格令模型无法捕捉视觉场景真实语义表示的问题,提出使用矢量图形作为图像的替代表示方式,以克服这种局限性。
- 关键思路本文的关键思路是使用矢量图形作为图像的替代表示方式,并引入“笔画标记”作为更自然和语义连贯的图像分割方式,从而提高模型的性能。
- 其它亮点本文提出的StrokeNUWA方法在矢量图形生成任务中表现出色,使用笔画标记的方法大大提高了模型的性能,实验结果显示其在各种指标上显著优于传统的基于LLMs和基于优化的方法。此外,StrokeNUWA在推断速度方面实现了高达94倍的提速,并具有卓越的SVG代码压缩比率6.9%。
- 在这个领域中的相关研究包括:1. Learning to Generate Vector Graphics with Conditional Adversarial Networks;2. VectorVAE: A Structured Variational Autoencoder for Vector Graphics;3. DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation。
沙发等你来抢
去评论
评论
沙发等你来抢