Rendering-Aware Reinforcement Learning for Vector Graphics Generation

简介

可缩放矢量图形（SVG）提供了一种强大的格式，可以将视觉设计表示为可解释的代码。近期视觉-语言模型（VLMs）的进步通过将问题定义为代码生成任务，并利用大规模预训练，实现了高质量的SVG生成。VLMs特别适合这一任务，因为它们能够捕捉全局语义和精细的视觉模式，同时在视觉、自然语言和代码领域之间迁移知识。然而，现有的VLM方法通常难以生成准确且高效的SVG，因为它们在训练过程中从未观察到渲染后的图像。尽管自回归SVG代码生成的可微渲染技术尚未实现，但渲染结果仍可与原始输入进行比较，从而提供适用于强化学习（RL）的评估反馈。我们提出了基于渲染反馈的强化学习方法（RLRF, Reinforcement Learning from Rendering Feedback），这是一种强化学习方法，通过利用渲染后的SVG输出提供的反馈，增强自回归VLMs中的SVG生成能力。给定一张输入图像，模型会生成SVG序列，这些序列会被渲染并与原始图像进行比较以计算奖励。这种视觉保真度反馈引导模型生成更精确、更高效且语义上更连贯的SVG。RLRF显著优于监督微调方法，解决了常见的失败模式，并实现了具有强大结构理解和泛化能力的精确、高质量SVG生成。
图表
解决问题

论文试图解决SVG生成模型在视觉保真度和代码效率方面的不足问题。现有的视觉-语言模型（VLMs）虽然能够生成高质量的SVG，但由于训练过程中未观察到渲染图像，导致生成结果可能缺乏准确性与效率。这是一个需要改进的具体技术问题，而非全新的问题定义。
关键思路

关键思路是引入强化学习方法RLRF（Reinforcement Learning from Rendering Feedback），通过将生成的SVG渲染并与原始图像对比来提供反馈信号，从而优化模型输出。相比传统的监督微调方法，该方法利用渲染后的视觉保真度作为奖励函数，使模型能够更准确地生成SVG代码，同时保持结构化和语义一致性。这种基于反馈的学习机制为提升生成质量提供了新方向。
其它亮点

论文设计了详细的实验来验证RLRF的有效性，包括不同复杂度的输入图像测试以及与基线方法的对比分析。实验使用了公开数据集如COCO，并开源了代码以供社区复现和进一步研究。此外，论文还探讨了模型对细粒度图案和全局语义的理解能力，展示了其在多种场景下的泛化性能。未来可继续探索更高效的渲染算法以及扩展到其他矢量图形生成任务的可能性。
相关研究

近期相关研究包括：1) 使用大规模预训练VLMs进行跨模态生成的任务（例如DALL·E系列和Stable Diffusion）；2) 针对SVG生成的序列建模方法（如SVG-VQGAN）；3) 差分渲染技术在3D重建中的应用（如NeRF-RS）。一些具体论文标题有《DALL·E: Creating Images from Text》、《SVG-VQGAN: Vector Graphics Generation with VQGAN》和《Differentiable Rendering for Image Synthesis and Inverse Graphics》。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论