EVALALIGN: Supervised Fine-Tuning Multimodal LLMs with Human-Aligned Data for Evaluating Text-to-Image Models

2024年06月24日
  • 简介
    最近文本生成图像模型的进展非常显著。然而,这一领域缺乏能够准确反映这些模型性能的评估指标,特别是缺乏能够指导模型优化的细粒度指标。在本文中,我们提出了EvalAlign,这是一种以准确性、稳定性和细粒度为特征的度量方式。我们的方法利用了在大规模数据集上预训练的多模态大型语言模型(MLLM)的能力。我们开发了评估协议,重点关注两个关键维度:图像忠实度和文本-图像对齐。每个协议包括一组详细的、细粒度的说明,与特定的评分选项相连,使得可以对生成的图像进行精确的手动评分。我们对MLLM进行了监督微调(SFT),使其与人类评估判断紧密对齐,从而得到了一个稳健的评估模型。我们在24个文本生成图像模型上进行了全面测试,结果表明EvalAlign不仅提供了更好的度量稳定性,而且与现有指标相比更接近于人类偏好,证实了其在模型评估中的有效性和实用性。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决文本到图像生成模型评估指标不足的问题,提出了EvalAlign指标,并验证其准确性、稳定性和细粒度。
  • 关键思路
    EvalAlign指标利用大规模语言模型(MLLMs)的能力,通过图像忠实度和文本-图像对齐两个关键维度,提供精细的评估指标。通过有监督的微调,EvalAlign与人类评估判断更加一致。
  • 其它亮点
    论文在24个文本到图像生成模型上进行了全面测试,证明EvalAlign不仅提供了更好的度量稳定性,而且与人类偏好更加一致。论文还提供了详细的评估协议和打分选项,以及开源代码。
  • 相关研究
    最近的相关研究包括《A Large-Scale Study on Language Model Pre-training》、《Generative Adversarial Networks》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问