MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?

2024年07月05日
  • 简介
    虽然像DALLE-3和Stable Diffusion这样的文本到图像模型正在迅速增多,但它们经常遇到幻觉、偏见和生成不安全、低质量的输出等挑战。为了有效解决这些问题,关键是基于来自多模式评判员的反馈将这些模型与期望的行为对齐。尽管它们很重要,但当前的多模式评判员经常接受不充分的能力和限制评估,可能导致不对齐和不安全的微调结果。为了解决这个问题,我们介绍了MJ-Bench,这是一个新颖的基准测试,它结合了一个全面的偏好数据集,以评估多模式评判员在四个关键视角下提供图像生成模型反馈的能力:对齐、安全、图像质量和偏见。具体而言,我们评估了各种各样的多模式评判员,包括较小的基于CLIP的评分模型、开源的VLM(例如LLaVA系列)和闭源的VLM(例如GPT-4o、Claude 3),并在我们的偏好数据集的每个分解子类别上进行评估。实验表明,闭源的VLM通常提供更好的反馈,其中GPT-4o在平均水平上表现优于其他评判员。与开源的VLM相比,较小的评分模型可以提供更好的关于文本-图像对齐和图像质量的反馈,而VLM由于其更强的推理能力,可以提供更准确的安全和生成偏见的反馈。进一步的反馈规模研究表明,与数字刻度相比,VLM评判员通常可以在自然语言(Likert刻度)中提供更准确和稳定的反馈。值得注意的是,使用这些多模式评判员的单独反馈对端到端微调模型进行人工评估提供了类似的结论,进一步证实了MJ-Bench的有效性。所有数据、代码和模型都可以在https://huggingface.co/MJ-Bench上获得。
  • 作者讲解
  • 图表
  • 解决问题
    评估多模态判定模型在图像生成中的反馈能力,以解决图像生成中的幻觉、偏见和低质量输出等问题
  • 关键思路
    引入MJ-Bench基准测试,通过综合偏好数据集评估多模态判定模型在图像生成中的反馈能力,从四个关键角度进行评估
  • 其它亮点
    实验结果表明,封闭源VLM模型通常提供更好的反馈,GPT-4o在平均值上表现最好。与开源VLM模型相比,较小的评分模型可以提供更好的文本-图像对齐和图像质量反馈,而VLM模型由于其更强的推理能力,可以提供更准确的安全性和生成偏差反馈。进一步的反馈规模研究表明,VLM评委通常可以在自然语言(Likert-scale)中提供更准确和稳定的反馈。
  • 相关研究
    最近的相关研究包括DALLE-3和Stable Diffusion等文本到图像模型,以及CLIP和LLaVA家族等多模态判定模型。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问