- 简介大型基础模型的进展需要广泛覆盖、低成本和零污染的基准测试。尽管对语言模型评估进行了不断的探索,但对大型多模态模型(LMMs)评估的综合研究仍然有限。在这项工作中,我们介绍了LMMS-EVAL,这是一个统一和标准化的多模态基准测试框架,具有50多个任务和10多个模型,以促进透明和可重复的评估。虽然LMMS-EVAL提供了全面的覆盖范围,但我们发现它仍然无法实现低成本和零污染。为了解决这个评估三难问题,我们进一步介绍了LMMS-EVAL LITE,这是一个强调覆盖范围和效率的精简评估工具包。此外,我们还提出了Multimodal LIVEBENCH,利用不断更新的新闻和在线论坛来评估模型在野外的泛化能力,采用低成本和零污染的评估方法。总之,我们的工作强调考虑评估三难问题的重要性,并提供实际解决方案来处理评估大型多模态模型的权衡,为更有效和可靠的LMMs基准测试铺平道路。我们开源我们的代码库,并在https://github.com/EvolvingLMMs-Lab/lmms-eval和https://huggingface.co/spaces/lmms-lab/LiveBench上维护LIVEBENCH的排行榜。
- 图表
- 解决问题如何在评估大型多模态模型时实现广泛覆盖、低成本和零污染的基准测试?
- 关键思路论文提出了LMMS-EVAL和LMMS-EVAL LITE两种评估框架,以及Multimodal LIVEBENCH评估方法,旨在解决评估三难问题,实现评估的全面性、高效性和零污染性。
- 其它亮点LMMS-EVAL包含50多个任务和10多个模型,LMMS-EVAL LITE是一个重点强调覆盖率和效率的精简版评估工具包,Multimodal LIVEBENCH利用不断更新的新闻和在线论坛评估模型的泛化能力,所有代码和结果都开源。
- 近期的相关研究包括:ImageNet,COCO,Visual Genome等视觉任务基准测试;GLUE,SuperGLUE等自然语言处理任务基准测试;以及其他多模态模型的评估研究,如VQA,GQA等。
沙发等你来抢
去评论
评论
沙发等你来抢