- 简介个性化图像生成因其在创造个性化内容方面的出色功能而在日常工作和生活中具有巨大的潜力。然而,目前的评估要么是自动化的,但与人类不一致,要么需要耗费时间和金钱的人类评估。在这项工作中,我们提出了DreamBench++,这是一个由先进的多模态GPT模型自动化的与人类对齐的基准测试。具体而言,我们系统地设计提示,让GPT既与人类对齐又自我对齐,并赋予任务强化能力。此外,我们构建了一个包含多样化图像和提示的全面数据集。通过对7个现代生成模型进行基准测试,我们证明DreamBench++能够显著提高与人类对齐的评估,从而帮助社区获得创新性的发现。
- 图表
- 解决问题DreamBench++: 一种人类对齐的图像生成模型评估基准
- 关键思路DreamBench++是一种人类对齐的基准,通过使用先进的多模态GPT模型自动化评估,解决了当前图像生成模型评估中自动化评估与人工评估不一致的问题。其关键思路在于通过设计合适的提示,让GPT模型既能够与人类对齐,又能够自我对齐,从而提高评估的一致性和准确性。
- 其它亮点论文构建了一个包含多样化图像和提示的综合数据集,并使用7种现代生成模型进行了基准测试。实验结果表明,DreamBench++能够显著提高模型评估的人类对齐性和准确性。此外,论文还开源了数据集和代码,为后续研究提供了方便。值得深入研究的工作包括如何进一步提高模型的自我对齐能力和如何应用DreamBench++在其他任务上。
- 相关研究包括:1. CLIP: Connecting Text and Images for Comprehensive Understanding (Radford et al., 2021); 2. GPT-3: Language Models are Few-Shot Learners (Brown et al., 2020); 3. BigGAN: Generative Adversarial Networks with Large Scale and High Resolution Image Synthesis (Brock et al., 2018)等。
沙发等你来抢
去评论
评论
沙发等你来抢