- 简介尽管文本到图像模型现在可以生成逼真的照片和视频,但它们在涉及属性、关系和更高阶推理(如逻辑和比较)的组合文本提示方面仍存在困难。在这项工作中,我们在GenAI-Bench上进行了广泛的人类研究,以评估领先的图像和视频生成模型在组合文本到视觉生成的各个方面的表现。我们还比较了自动评估指标与我们收集的人类评分,并发现VQAScore(衡量VQA模型查看图像是否准确地描绘提示的可能性的指标)明显优于以前的指标,如CLIPScore。此外,VQAScore可以通过简单地排列几个(3到9个)候选图像,在不进行微调的情况下以黑盒方式改善生成。与PickScore、HPSv2和ImageReward等其他评分方法相比,按VQAScore排名在提高DALL-E 3和Stable Diffusion的人类对齐评分方面特别是在需要高级视觉语言推理的组合提示方面比其他评分方法有效2倍至3倍。我们将发布一个新的GenAI-Rank基准,其中包括超过40,000个人类评分,以评估评分指标在排名从相同提示生成的图像方面的表现。最后,我们讨论了VQAScore的改进方向,例如解决细粒度的视觉细节。我们将发布所有人类评分(超过80,000个),以便科学基准测试生成模型和自动指标。
- 图表
- 解决问题本论文旨在解决图像和视频生成模型在复合文本提示中的表现不佳的问题,特别是在涉及属性、关系和高阶推理等方面。同时,论文还试图比较自动评估指标与人类评分之间的差异。
- 关键思路本文提出了一种新的评估指标VQAScore,它可以在不需要微调的情况下通过排名几个候选图像来提高生成质量。该指标在涉及高级视觉语言推理的复合提示中比其他评分方法更有效。
- 其它亮点论文进行了广泛的人类研究,并发布了GenAI-Rank基准测试,其中包含超过40,000个人类评分,以评估评分指标对于排名由同一提示生成的图像的有效性。作者还发布了超过80,000个人类评分以促进科学基准测试。论文还探讨了VQAScore的改进方向,例如解决细粒度视觉细节等问题。
- 在这个领域中,最近的相关研究包括:CLIP、DALL-E、Stable Diffusion等。
沙发等你来抢
去评论
评论
沙发等你来抢