Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering

2024年06月14日
  • 简介
    最近,Glyph-ByT5在图形设计图像中取得了高度准确的视觉文本渲染性能。然而,它仍然仅关注英语,在视觉吸引力方面表现相对较差。在这项工作中,我们通过提出Glyph-ByT5-v2和Glyph-SDXL-v2来解决这两个基本限制,它们不仅支持10种不同语言的准确视觉文本渲染,而且实现了更好的美学质量。为了实现这一目标,我们做出了以下贡献:(i)创建一个高质量的多语言字形-文本和图形设计数据集,包括超过1百万个字形-文本对和1千万个覆盖其他九种语言的图形设计图像-文本对。(ii)构建一个多语言视觉段落基准,包括1,000个提示,每种语言100个,以评估多语言视觉拼写准确性。(iii)利用最新的步骤感知偏好学习方法来增强视觉美学质量。通过这些技术的组合,我们提供了一个强大的定制多语言文本编码器Glyph-ByT5-v2和一个强大的美学图形生成模型Glyph-SDXL-v2,可以支持10种不同语言的准确拼写。考虑到最新的DALL-E3和Ideogram 1.0仍然在多语言视觉文本渲染任务中遇到困难,我们认为我们的工作是一个重要的进步。
  • 图表
  • 解决问题
    本论文旨在解决Glyph-ByT5在多语言和视觉美感方面的局限性,提出了Glyph-ByT5-v2和Glyph-SDXL-v2,支持10种不同语言的准确视觉文本呈现和更好的美学质量。
  • 关键思路
    通过构建高质量的多语言字形-文本和图形设计数据集,建立一个多语言视觉段落基准测试,利用最新的步骤感知偏好学习方法增强视觉美感质量,提供一个强大的定制多语言文本编码器Glyph-ByT5-v2和强大的美学图形生成模型Glyph-SDXL-v2。
  • 其它亮点
    本论文的亮点包括构建高质量的多语言数据集和视觉段落基准测试,利用最新的步骤感知偏好学习方法增强视觉美感质量,提供一个强大的定制多语言文本编码器和美学图形生成模型。实验结果表明,Glyph-ByT5-v2和Glyph-SDXL-v2在多语言和美学质量方面比当前领域的其他模型表现更好。
  • 相关研究
    最近的相关研究包括DALL-E3和Ideogram 1.0,它们在多语言视觉文本呈现任务上仍存在困难。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论