Learning Multi-dimensional Human Preference for Text-to-Image Generation

2024年05月23日
  • 简介
    目前文本到图像模型的度量通常依赖于统计度量,这些度量不能充分代表人类的真实偏好。虽然最近的研究试图通过人类注释的图像来学习这些偏好,但它们将丰富多彩的人类偏好缩减为一个总体得分。然而,当人们评估具有不同方面的图像时,偏好结果会有所不同。因此,为了学习多维人类偏好,我们提出了Multi-dimensional Preference Score (MPS),这是第一个用于评估文本到图像模型的多维偏好评分模型。MPS在CLIP模型上引入了偏好条件模块,以学习这些多样化的偏好。它是基于我们的Multi-dimensional Human Preference (MHP)数据集进行训练的,该数据集包括607,541张图像上918,315个人类偏好选择,涵盖了四个维度(即美学、语义对齐、细节质量和总体评估)。这些图像是由各种最新的文本到图像模型生成的。MPS在4个维度的3个数据集中优于现有的评分方法,使其成为评估和改进文本到图像生成的有前途的度量方法。
  • 图表
  • 解决问题
    本文旨在解决当前文本到图像生成模型评估中存在的问题,即现有的统计度量无法充分反映人类的真实偏好。作者提出了一种多维度偏好评分模型,以更好地学习人类的多样化偏好。
  • 关键思路
    本文提出了一种基于CLIP模型和偏好条件模块的多维度偏好评分模型(MPS),并使用多维人类偏好(MHP)数据集进行训练。相比于现有评分方法,MPS在多个数据集和多个维度上表现更好。
  • 其它亮点
    本文的亮点包括提出了一种新的多维度偏好评分模型,使用了大规模的MHP数据集进行训练,并在多个数据集和多个维度上进行了实验验证。此外,作者还探讨了评估指标的局限性,并提出了未来改进的方向。
  • 相关研究
    在相关研究方面,最近的工作主要集中在文本到图像生成模型的改进和评估方法上。例如,GAN、VAE等生成模型的改进,以及不同的评估指标的探索。相关论文包括:《Generative Adversarial Networks》、《Auto-Encoding Variational Bayes》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论