LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

简介

大型基础模型的进展需要广泛覆盖、低成本和零污染的基准测试。尽管对语言模型评估进行了不断的探索，但对大型多模态模型（LMMs）评估的综合研究仍然有限。在这项工作中，我们介绍了LMMS-EVAL，这是一个统一和标准化的多模态基准测试框架，具有50多个任务和10多个模型，以促进透明和可重复的评估。虽然LMMS-EVAL提供了全面的覆盖范围，但我们发现它仍然无法实现低成本和零污染。为了解决这个评估三难问题，我们进一步介绍了LMMS-EVAL LITE，这是一个强调覆盖范围和效率的精简评估工具包。此外，我们还提出了Multimodal LIVEBENCH，利用不断更新的新闻和在线论坛来评估模型在野外的泛化能力，采用低成本和零污染的评估方法。总之，我们的工作强调考虑评估三难问题的重要性，并提供实际解决方案来处理评估大型多模态模型的权衡，为更有效和可靠的LMMs基准测试铺平道路。我们开源我们的代码库，并在https://github.com/EvolvingLMMs-Lab/lmms-eval和https://huggingface.co/spaces/lmms-lab/LiveBench上维护LIVEBENCH的排行榜。
图表
解决问题

如何在评估大型多模态模型时实现广泛覆盖、低成本和零污染的基准测试？
关键思路

论文提出了LMMS-EVAL和LMMS-EVAL LITE两种评估框架，以及Multimodal LIVEBENCH评估方法，旨在解决评估三难问题，实现评估的全面性、高效性和零污染性。
其它亮点

LMMS-EVAL包含50多个任务和10多个模型，LMMS-EVAL LITE是一个重点强调覆盖率和效率的精简版评估工具包，Multimodal LIVEBENCH利用不断更新的新闻和在线论坛评估模型的泛化能力，所有代码和结果都开源。
相关研究

近期的相关研究包括：ImageNet，COCO，Visual Genome等视觉任务基准测试；GLUE，SuperGLUE等自然语言处理任务基准测试；以及其他多模态模型的评估研究，如VQA，GQA等。

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

评论