Class-Conditional self-reward mechanism for improved Text-to-Image models

2024年05月22日
  • 简介
    自我奖励最近在自然语言处理(NLP)领域中崭露头角,通过在训练过程中提供自己的奖励,使语言模型能够生成高质量的相关回答。这种创新技术解决了依赖人类偏好的其他方法的局限性。本文在自我奖励模型的基础上构建了文本到图像生成AI模型的视觉等效模型。这种方法通过在自动生成的自我评估数据集上微调扩散模型,使微调更加自动化且数据质量更好。所提出的机制利用了其他预训练模型,如基于词汇的物体检测、图像字幕等,并由用户可能需要改进生成的数据质量的一组对象进行条件化。该方法已经实施、微调并在稳定的扩散上进行了评估,其性能被评估为至少比现有商业和研究文本到图像模型好60\%。此外,构建的自我奖励机制允许完全自动化的图像生成,同时提高了生成图像的视觉质量,并更有效地遵循提示指令。本文使用的代码可在https://github.com/safouaneelg/SRT2I上免费获取。
  • 图表
  • 解决问题
    论文试图通过自我奖励机制,解决Text-to-Image生成模型中数据质量不佳的问题,提高生成图片的视觉质量和按照提示生成的效率。
  • 关键思路
    论文提出了一种基于自我奖励的Text-to-Image生成模型,利用自动生成的自我判定数据集对扩散模型进行微调,提高了自动生成图片的效率和质量。
  • 其它亮点
    论文使用了自我奖励机制,通过微调扩散模型,实现了更高效和更高质量的Text-to-Image生成。实验结果表明,该方法的性能比现有的商业和研究Text-to-Image模型至少提高了60%。作者还开源了代码。
  • 相关研究
    最近的相关研究包括:《Generative Adversarial Networks for Image Generation》、《Image Generation from Text using GANs》、《StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论