PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models

2024年06月17日
  • 简介
    文本到图像(T2I)模型在从文本提示生成图像方面取得了实质性进展。然而,它们经常无法生成符合物理常识的图像,这是在世界模拟和日常任务应用中至关重要的能力。当前的T2I评估基准关注的是准确性、偏差和安全等指标,忽略了模型内部知识的评估,特别是物理常识的评估。为了解决这个问题,我们引入了PhyBench,这是一个综合的T2I评估数据集,包括4个主要类别的700个提示:力学、光学、热力学和材料特性,涵盖31个不同的物理场景。我们评估了6个著名的T2I模型,包括专有模型DALLE3和Gemini,并证明将物理原理纳入提示可以增强模型生成物理精确图像的能力。我们的研究发现:(1)即使是先进的模型在各种物理场景中也经常出错,除了光学;(2)带有项目特定评分说明的GPT-4o有效地评估了模型对物理常识的理解,与人类评估密切相关;(3)当前的T2I模型主要关注文本到图像的转换,缺乏关于物理常识的深刻推理。我们主张增加对T2I模型内在知识的关注,超越它们作为纯粹图像生成工具的效用。代码和数据可在https://github.com/OpenGVLab/PhyBench获得。
  • 图表
  • 解决问题
    评估文本到图像模型中的物理常识
  • 关键思路
    引入PhyBench数据集,评估6个主流文本到图像模型在物理常识方面的表现,发现模型在光学方面表现良好,但在其他物理场景中仍然存在误差,提出加入物理原理可以提高模型生成物理准确图像的能力
  • 其它亮点
    PhyBench数据集包含700个物理场景的文本提示,涵盖31个不同的物理场景,对6个主流文本到图像模型进行了评估,发现GPT-4o可以有效评估模型的物理常识理解,该研究强调了模型内在知识的重要性,并提供了开源代码和数据集
  • 相关研究
    最近的相关研究包括:1.《Image Generation from Scene Graphs》;2.《Generative Adversarial Text-to-Image Synthesis》;3.《AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks》等
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论