- 简介多模态大语言模型(MLLMs)由于在各种应用中表现出色,如视觉问答、视觉感知、理解和推理,因此在学术界和工业界越来越受欢迎。在过去几年中,人们付出了大量努力,从多个角度对MLLMs进行了研究。本文对180个MLLMs基准和评估进行了全面的回顾,重点关注(1)感知和理解,(2)认知和推理,(3)特定领域,(4)关键能力,和(5)其他模态。最后,我们讨论了当前MLLMs评估方法的局限性,并探讨了有前途的未来方向。我们的主要论点是,评估应该被视为支持MLLMs发展的重要学科。有关更多详细信息,请访问我们的GitHub存储库:https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey。
- 图表
- 解决问题本论文旨在全面评估多模态大语言模型(MLLMs)在不同任务和领域中的性能,并探讨当前评估方法的局限性和未来发展方向。
- 关键思路本论文对180个任务和领域的MLLMs进行了全面评估,包括感知和理解、认知和推理、特定领域、关键能力和其他模态。同时,本文提出评估应被视为支持MLLMs发展的重要学科。
- 其它亮点本文的亮点包括全面的评估结果和分析、对当前评估方法的批判性审视、未来评估方法的建议以及开源的评估代码。实验中使用了大量的数据集和MLLMs模型,其中部分数据集和代码已经开源。
- 最近的相关研究包括对MLLMs的应用和改进方法的探索,如BERT、GPT等模型的改进以及多模态融合的方法等。相关论文包括:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《Language Models are Few-Shot Learners》、《Unified Vision-Language Pre-Training for Image Captioning and VQA》等。
沙发等你来抢
去评论
评论
沙发等你来抢