A Survey on Benchmarks of Multimodal Large Language Models

简介

多模态大语言模型（MLLMs）由于在各种应用中表现出色，如视觉问答、视觉感知、理解和推理，因此在学术界和工业界越来越受欢迎。在过去几年中，人们付出了大量努力，从多个角度对MLLMs进行了研究。本文对180个MLLMs基准和评估进行了全面的回顾，重点关注(1)感知和理解，(2)认知和推理，(3)特定领域，(4)关键能力，和(5)其他模态。最后，我们讨论了当前MLLMs评估方法的局限性，并探讨了有前途的未来方向。我们的主要论点是，评估应该被视为支持MLLMs发展的重要学科。有关更多详细信息，请访问我们的GitHub存储库：https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey。
图表
解决问题

本论文旨在全面评估多模态大语言模型（MLLMs）在不同任务和领域中的性能，并探讨当前评估方法的局限性和未来发展方向。
关键思路

本论文对180个任务和领域的MLLMs进行了全面评估，包括感知和理解、认知和推理、特定领域、关键能力和其他模态。同时，本文提出评估应被视为支持MLLMs发展的重要学科。
其它亮点

本文的亮点包括全面的评估结果和分析、对当前评估方法的批判性审视、未来评估方法的建议以及开源的评估代码。实验中使用了大量的数据集和MLLMs模型，其中部分数据集和代码已经开源。
相关研究

最近的相关研究包括对MLLMs的应用和改进方法的探索，如BERT、GPT等模型的改进以及多模态融合的方法等。相关论文包括：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《Language Models are Few-Shot Learners》、《Unified Vision-Language Pre-Training for Image Captioning and VQA》等。

A Survey on Benchmarks of Multimodal Large Language Models

评论