- 简介大型语言模型(LLMs)的前所未有的进展对自然语言处理产生了深远影响,但尚未完全涉足可缩放矢量图形(SVG)生成领域。虽然在训练过程中,LLMs从网页中编码了部分SVG数据知识,但最近的研究表明,LLMs内部语义模糊且分词化的表示可能导致矢量图元预测中的幻觉现象。此外,LLM训练通常缺乏对矢量路径渲染顺序的建模和理解,这可能导致输出矢量图元之间的遮挡问题。在本文中,我们介绍了LLM4SVG,这是朝着弥合这一差距迈出的初步但重要的一步,旨在使LLMs更好地理解和生成矢量图形。LLM4SVG通过可学习的语义标记促进了对SVG组件的更深入理解,这些标记精确地编码了这些标记及其相应属性,以生成语义对齐的SVG输出。利用一系列可学习的语义标记,开发了一个结构化的指令跟随数据集,支持两个主要任务的理解和生成。我们的方法在现有的大型语言模型中引入了模块化架构,集成了语义标签、矢量指令编码器、微调命令和强大的LLMs,将几何、外观和语言信息紧密结合。为了解决SVG-文本指令数据稀缺的问题,我们开发了一条自动化数据生成管道,收集了超过25万个SVG数据和58万个SVG-文本指令的大规模数据集,这有助于采用在LLM开发中流行的两阶段训练策略。通过探索各种训练策略,我们开发了LLM4SVG,该模型显著超越了基于优化渲染的方法和基于语言模型的基线,在人类评估任务中取得了显著成果。
- 图表
- 解决问题该论文旨在解决大型语言模型(LLMs)在生成可扩展矢量图形(SVG)时存在的问题,包括语义模糊和向量原语预测中的幻觉现象,以及缺乏对矢量路径渲染序列的理解导致的遮挡问题。这是一个相对新颖的问题,因为尽管LLMs在自然语言处理方面取得了显著进展,但在SVG生成领域仍处于起步阶段。
- 关键思路论文提出了一种名为LLM4SVG的方法,通过引入可学习的语义标记和结构化数据集来增强LLMs对SVG组件的理解。具体来说,LLM4SVG通过模块化架构将语义标签、向量指令编码器、微调命令与强大的LLMs结合,以整合几何、外观和语言信息。这一方法不仅解决了现有方法中的语义模糊和遮挡问题,还提高了生成SVG的准确性和一致性。
- 其它亮点论文的亮点包括:1) 开发了一个自动化数据生成管道,收集了超过25万条SVG数据和58万条SVG-文本指令,为训练提供了丰富的数据支持;2) 采用了两阶段训练策略,有效提升了模型的性能;3) 在人类评估任务中取得了显著的成果,超越了基于渲染的方法和语言模型基线。此外,论文还提供了开源代码,便于其他研究人员复现和进一步研究。
- 近期在这一领域的一些相关研究包括:1) 'Vector Graphics Generation with Deep Learning',探讨了深度学习在生成矢量图形中的应用;2) 'Semantic Vector Graphics Synthesis using Generative Adversarial Networks',利用生成对抗网络生成语义一致的矢量图形;3) 'Text-to-SVG: A Dataset and Baseline Models for Text-to-Vector Graphics Conversion',构建了一个大规模的文本到SVG转换数据集并提出了基线模型。这些研究共同推动了矢量图形生成技术的发展。
沙发等你来抢
去评论
评论
沙发等你来抢