- 简介将文本提示转化为矢量艺术是一项具有挑战性的视觉任务,需要对所见和未见实体进行多样化而逼真的描绘。然而,现有的研究大多局限于生成单个物体,而非包含多个元素的全面场景。为此,本研究介绍了一种新的端到端框架SVGCraft,用于从文本描述中创建描绘整个场景的矢量图形。该框架利用预训练的LLM生成文本提示的布局,并引入了一种在指定边界框中产生掩码潜变量以实现准确对象放置的技术。它引入了一种融合机制来集成注意力映射,并采用扩散U-Net进行连贯组合,加快绘图过程。使用预训练的编码器和LPIPS损失进行优化,通过透明度调节最大化相似性来优化生成的SVG。此外,本研究探讨了原始形状在促进在受限环境中完成画布方面的潜力。通过定性和定量评估,SVGCraft在抽象性、可识别性和细节方面均表现出优异的性能,其性能指标(CLIP-T: 0.4563,余弦相似度: 0.6342,混淆: 0.66,美学: 6.7832)证明了这一点。该代码将在https://github.com/ayanban011/SVGCraft上提供。
- 图表
- 解决问题论文旨在解决从文本描述生成整个场景的矢量图像的问题,这是一个新的问题。
- 关键思路该论文提出了SVGCraft框架,利用预训练的LLM生成布局,引入了一种在指定边界框中生成掩膜潜变量的技术以实现准确的对象放置,使用融合机制来整合注意力图,并采用扩散U-Net进行协调组合,加速绘图过程。使用预训练的编码器和LPIPS损失进行优化,最大化相似性。
- 其它亮点论文的实验结果表明,SVGCraft在抽象性、可识别性和细节方面均优于以前的工作,性能指标(CLIP-T:0.4563,余弦相似度:0.6342,混淆度:0.66,美学:6.7832)。代码将在https://github.com/ayanban011/SVGCraft上提供。
- 在这个领域中的相关研究包括:SketchyGAN:生成草图的条件GAN(Conditional GAN);VectorVAE:基于变分自编码器(VAE)的矢量图像生成;SVG-VAE:基于VAE的矢量图像生成;SketchRNN:通过递归神经网络(RNN)生成草图;等等。
沙发等你来抢
去评论
评论
沙发等你来抢