A-Bench: Are LMMs Masters at Evaluating AI-generated Images?

2024年06月05日
  • 简介
    如何准确高效地评估人工智能生成的图像(AIGI)仍然是生成模型面临的一个关键挑战。由于用户研究需要高昂的成本和广泛的时间承诺,许多研究人员已经转向使用大型多模型模型(LMM)作为AIGI评估器,其精度和有效性仍然值得怀疑。此外,传统基准测试通常主要使用自然捕捉的内容而不是AIGI来测试LMM的能力,导致AIGI存在明显差距。因此,本文介绍了A-Bench,这是一个旨在诊断LMM是否擅长评估AIGI的基准。具体而言,A-Bench遵循两个关键原则:1)强调高级语义理解和低级视觉质量感知,以解决AIGI的复杂需求。2)利用各种生成模型进行AIGI创建,并使用各种LMM进行评估,以确保全面的验证范围。最终,从16个文本到图像模型中抽取了2,864个AIGI,每个AIGI都与人类专家注释的问题答案配对,并在18个领先的LMM中进行了测试。我们希望A-Bench将显着增强评估过程并促进AIGI的生成质量。该基准测试可在https://github.com/Q-Future/A-Bench上获得。
  • 图表
  • 解决问题
    如何准确高效地评估人工智能生成的图像(AIGIs)是一个关键的挑战。当前许多研究人员采用大型多模态模型(LMMs)作为AIGI评估器,但其精度和有效性仍然存在问题。此外,传统的基准测试通常使用大量自然捕获的内容而不是AIGIs来测试LMM的能力,导致AIGIs存在明显的差距。
  • 关键思路
    作者提出了一个名为A-Bench的基准测试,旨在诊断LMM是否擅长评估AIGIs。该基准测试强调高级语义理解和低级视觉质量感知,以解决AIGIs的复杂需求。使用各种生成模型进行AIGI创建,并使用各种LMM进行评估,以确保全面的验证范围。最终,从16个文本到图像模型中抽取了2,864个AIGIs,每个AIGI都与由人类专家注释的问题答案配对,并在18个领先的LMM上进行了测试。
  • 其它亮点
    A-Bench基准测试可显著提高评估过程并促进AIGIs的生成质量。实验设计充分,使用了大量数据集,并提供了开源代码。值得进一步研究的工作包括如何进一步提高AIGIs的生成质量以及如何更好地评估AIGIs的效果。
  • 相关研究
    最近的相关研究包括使用GAN生成图像的研究,如《Generative Adversarial Networks》和《Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks》。还有一些关于图像评估的研究,如《Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论