Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models

2024年05月03日
  • 简介
    我们介绍了 Vibe-Eval:一种新的开放基准和框架,用于评估多模态聊天模型。Vibe-Eval 包括 269 个视觉理解提示,其中包括 100 个难度较大的提示,每个提示都有由专家撰写的黄金标准响应。Vibe-Eval 是开放性和具有挑战性的,具有双重目标:(i)检查多模态聊天模型在日常任务中的感觉,并(ii)严格测试和探测现有前沿模型的能力。值得注意的是,我们的难度较大的集合包含超过 50% 的问题,所有前沿模型都无法正确回答。我们探讨了设计、评估和排名超级具有挑战性提示的细微差别。我们还讨论了人工评估和自动评估之间的权衡,并展示了使用 Reka Core 进行自动模型评估大致与人类判断相关。我们提供免费的 API 访问,以进行轻量级评估,并计划对在 Vibe-Eval 的自动得分上表现良好的公共模型进行正式的人类评估。我们发布了评估代码和数据,请参见 https://github.com/reka-ai/reka-vibe-eval。
  • 图表
  • 解决问题
    Vibe-Eval论文旨在提出一个用于评估多模态聊天模型的开放式基准和框架,以解决当前缺乏挑战性的评估数据集的问题。
  • 关键思路
    Vibe-Eval包含269个视觉理解提示,其中包括100个难度较大的提示,并配备了专家编写的黄金标准响应。该评估数据集具有开放性和挑战性,旨在测试当前最先进的模型的能力。
  • 其它亮点
    该论文的亮点包括设计难度较大的评估数据集,并提供了自动评估和人工评估两种方式。论文还提供了API接口和开源代码,以便于其他研究人员进行评估和研究。
  • 相关研究
    近期的相关研究包括:1. MultiWOZ:一个开放域的多轮对话数据集;2. Persona-Chat:一个包含人物角色的对话数据集;3. CoQA:一个基于文本和常识的问答数据集。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论