A Survey on Benchmarks of Multimodal Large Language Models

2024年08月16日
  • 简介
    多模态大语言模型(MLLMs)由于在各种应用中表现出色,如视觉问答、视觉感知、理解和推理,因此在学术界和工业界越来越受欢迎。在过去几年中,人们付出了大量努力,从多个角度对MLLMs进行了研究。本文对180个MLLMs基准和评估进行了全面的回顾,重点关注(1)感知和理解,(2)认知和推理,(3)特定领域,(4)关键能力,和(5)其他模态。最后,我们讨论了当前MLLMs评估方法的局限性,并探讨了有前途的未来方向。我们的主要论点是,评估应该被视为支持MLLMs发展的重要学科。有关更多详细信息,请访问我们的GitHub存储库:https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey。
  • 图表
  • 解决问题
    本论文旨在全面评估多模态大语言模型(MLLMs)在不同任务和领域中的性能,并探讨当前评估方法的局限性和未来发展方向。
  • 关键思路
    本论文对180个任务和领域的MLLMs进行了全面评估,包括感知和理解、认知和推理、特定领域、关键能力和其他模态。同时,本文提出评估应被视为支持MLLMs发展的重要学科。
  • 其它亮点
    本文的亮点包括全面的评估结果和分析、对当前评估方法的批判性审视、未来评估方法的建议以及开源的评估代码。实验中使用了大量的数据集和MLLMs模型,其中部分数据集和代码已经开源。
  • 相关研究
    最近的相关研究包括对MLLMs的应用和改进方法的探索,如BERT、GPT等模型的改进以及多模态融合的方法等。相关论文包括:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《Language Models are Few-Shot Learners》、《Unified Vision-Language Pre-Training for Image Captioning and VQA》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论