LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

2024年07月17日
  • 简介
    大型基础模型的进展需要广泛覆盖、低成本和零污染的基准测试。尽管对语言模型评估进行了不断的探索,但对大型多模态模型(LMMs)评估的综合研究仍然有限。在这项工作中,我们介绍了LMMS-EVAL,这是一个统一和标准化的多模态基准测试框架,具有50多个任务和10多个模型,以促进透明和可重复的评估。虽然LMMS-EVAL提供了全面的覆盖范围,但我们发现它仍然无法实现低成本和零污染。为了解决这个评估三难问题,我们进一步介绍了LMMS-EVAL LITE,这是一个强调覆盖范围和效率的精简评估工具包。此外,我们还提出了Multimodal LIVEBENCH,利用不断更新的新闻和在线论坛来评估模型在野外的泛化能力,采用低成本和零污染的评估方法。总之,我们的工作强调考虑评估三难问题的重要性,并提供实际解决方案来处理评估大型多模态模型的权衡,为更有效和可靠的LMMs基准测试铺平道路。我们开源我们的代码库,并在https://github.com/EvolvingLMMs-Lab/lmms-eval和https://huggingface.co/spaces/lmms-lab/LiveBench上维护LIVEBENCH的排行榜。
  • 图表
  • 解决问题
    如何在评估大型多模态模型时实现广泛覆盖、低成本和零污染的基准测试?
  • 关键思路
    论文提出了LMMS-EVAL和LMMS-EVAL LITE两种评估框架,以及Multimodal LIVEBENCH评估方法,旨在解决评估三难问题,实现评估的全面性、高效性和零污染性。
  • 其它亮点
    LMMS-EVAL包含50多个任务和10多个模型,LMMS-EVAL LITE是一个重点强调覆盖率和效率的精简版评估工具包,Multimodal LIVEBENCH利用不断更新的新闻和在线论坛评估模型的泛化能力,所有代码和结果都开源。
  • 相关研究
    近期的相关研究包括:ImageNet,COCO,Visual Genome等视觉任务基准测试;GLUE,SuperGLUE等自然语言处理任务基准测试;以及其他多模态模型的评估研究,如VQA,GQA等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论