GenAI Arena: An Open Evaluation Platform for Generative Models

2024年06月06日
  • 简介
    生成式人工智能已经在图像和视频生成等领域取得了显著进展。这些进展是由创新的算法、架构和数据驱动的。然而,生成模型的快速增长凸显出一个关键的差距:缺乏可信的评估指标。目前的自动评估方法,如FID、CLIP、FVD等,往往无法捕捉到与生成输出相关的微妙质量和用户满意度。本文提出了一个开放平台GenAI-Arena,用于评估不同的图像和视频生成模型,用户可以积极参与评估这些模型。通过利用集体用户反馈和投票,GenAI-Arena旨在提供更民主和准确的模型性能度量。它涵盖了文本到图像生成、文本到视频生成和图像编辑的三个竞技场。目前,我们涵盖了共27个开源生成模型。GenAI-Arena已经运营了四个月,社区已经积累了超过6000个投票。我们描述了我们的平台,分析了数据,并解释了排名模型的统计方法。为了进一步促进基于模型的评估指标的研究,我们发布了三个任务的干净版偏好数据,即GenAI-Bench。我们促使现有的多模态模型像Gemini、GPT-4o一样模仿人类投票。我们计算模型投票与人类投票之间的相关性,以了解它们的判断能力。我们的结果表明,现有的多模态模型仍然落后于评估生成的视觉内容,即使最好的模型GPT-4o在质量子分数上只能达到0.22的皮尔逊相关系数,并且在其他方面表现得像随机猜测。
  • 图表
  • 解决问题
    如何评估生成模型的性能?当前的自动评估指标是否准确?
  • 关键思路
    提出了一个开放平台GenAI-Arena,让用户参与评估不同的图像和视频生成模型,通过集体反馈和投票来提供更民主和准确的模型性能评估。
  • 其它亮点
    GenAI-Arena覆盖了三个领域:文本到图像生成、文本到视频生成和图像编辑。目前涵盖了27个开源的生成模型。通过发布清理后的偏好数据集GenAI-Bench,促进建立基于模型的评估指标的研究。同时,论文还测试了现有的多模态模型(如Gemini,GPT-4o)在评估生成视觉内容方面的表现,结果表明它们的评估能力仍然有待提高。
  • 相关研究
    与此相关的研究包括FID、CLIP、FVD等自动评估指标的研究,以及文本到图像生成、图像编辑等领域的生成模型的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论