MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks

2024年10月14日
  • 简介
    我们介绍了MEGA-Bench,一个评估套件,可以将多模态评估扩展到超过500个真实世界的任务,以解决最终用户高度异构的日常使用情况。我们的目标是优化一组高质量的数据样本,涵盖高度多样化和丰富的多模态任务,同时实现成本效益和准确的模型评估。特别地,我们收集了505个现实任务,涵盖了来自16个专家注释者的超过8,000个样本,以广泛覆盖多模态任务空间。我们不像MMMUM、MMBench和MMT-Bench那样将这些问题统一成标准的多选题,而是采用了各种输出格式,如数字、短语、代码、\LaTeX、坐标、JSON、自由形式等。为了适应这些格式,我们开发了40多个指标来评估这些任务。与现有的基准不同,MEGA-Bench提供了跨多个维度(例如应用程序、输入类型、输出格式、技能)的细粒度能力报告,允许用户深入交互和可视化模型能力。我们在MEGA-Bench上评估了各种前沿的视觉语言模型,以了解它们在这些维度上的能力。
  • 作者讲解·1
  • 图表
  • 解决问题
    MEGA-Bench的目标是通过评估超过500个真实世界的多模态任务,优化高质量数据样本的集合,以覆盖多样化和丰富的多模态任务空间,同时实现成本效益和准确的模型评估。
  • 关键思路
    MEGA-Bench收集了505个真实世界的多模态任务,涵盖了超过8000个样本,并开发了40多个度量标准来评估这些任务。与现有的基准不同,MEGA-Bench提供了多个维度的细粒度能力报告,允许用户深入交互和可视化模型能力。
  • 其它亮点
    MEGA-Bench通过多种输出格式(如数字、短语、代码、LaTeX、坐标、JSON、自由格式等)支持多样化的任务,提供了细粒度的能力报告。研究人员还在MEGA-Bench上评估了多种前沿的视觉语言模型,以了解它们在多个维度上的能力。
  • 相关研究
    与MEGA-Bench相关的研究包括MMM、MMBench和MMT-Bench等基准,以及最近的前沿视觉语言模型研究,如ViLBERT、LXMERT和UNITER等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问