MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks

向作者提问

NEW

简介

我们介绍了MEGA-Bench，一个评估套件，可以将多模态评估扩展到超过500个真实世界的任务，以解决最终用户高度异构的日常使用情况。我们的目标是优化一组高质量的数据样本，涵盖高度多样化和丰富的多模态任务，同时实现成本效益和准确的模型评估。特别地，我们收集了505个现实任务，涵盖了来自16个专家注释者的超过8,000个样本，以广泛覆盖多模态任务空间。我们不像MMMUM、MMBench和MMT-Bench那样将这些问题统一成标准的多选题，而是采用了各种输出格式，如数字、短语、代码、\LaTeX、坐标、JSON、自由形式等。为了适应这些格式，我们开发了40多个指标来评估这些任务。与现有的基准不同，MEGA-Bench提供了跨多个维度（例如应用程序、输入类型、输出格式、技能）的细粒度能力报告，允许用户深入交互和可视化模型能力。我们在MEGA-Bench上评估了各种前沿的视觉语言模型，以了解它们在这些维度上的能力。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

MEGA-Bench的目标是通过评估超过500个真实世界的多模态任务，优化高质量数据样本的集合，以覆盖多样化和丰富的多模态任务空间，同时实现成本效益和准确的模型评估。
关键思路

MEGA-Bench收集了505个真实世界的多模态任务，涵盖了超过8000个样本，并开发了40多个度量标准来评估这些任务。与现有的基准不同，MEGA-Bench提供了多个维度的细粒度能力报告，允许用户深入交互和可视化模型能力。
其它亮点

MEGA-Bench通过多种输出格式（如数字、短语、代码、LaTeX、坐标、JSON、自由格式等）支持多样化的任务，提供了细粒度的能力报告。研究人员还在MEGA-Bench上评估了多种前沿的视觉语言模型，以了解它们在多个维度上的能力。
相关研究

与MEGA-Bench相关的研究包括MMM、MMBench和MMT-Bench等基准，以及最近的前沿视觉语言模型研究，如ViLBERT、LXMERT和UNITER等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问