M$\mathbf5$ -- A Diverse Benchmark to Assess the Performance of Large Multimodal Models Across Multilingual and Multicultural Vision-Language Tasks

2024年07月04日
  • 简介
    自从ChatGPT发布以来,自然语言处理领域经历了快速发展,尤其是在大型语言模型(LLMs)及其多模态对应物大型多模态模型(LMMs)方面。尽管它们具有令人印象深刻的能力,但是在不同语言和文化背景下,LLMs往往表现出显著的性能差异,这已经在各种纯文本基准测试中得到了证明。然而,当前的研究缺乏这样的多模态视觉语言环境下的基准测试。本研究通过引入M5,第一个旨在评估LMMs在多语言和多文化背景下进行多样化视觉语言任务的全面基准测试,填补了这一空白。M5包括八个数据集,涵盖五个任务和41种语言,重点关注少数语言和文化多样的图像。此外,我们引入了两个新数据集,M5-VGR和M5-VLOD,其中包括一个新的视觉语言异常检测任务,在此任务中,所有评估的开源模型都未能显著超过随机基线。通过广泛的评估和分析,我们突出了高资源和低资源语言之间的实质性任务不可知性能差异。此外,我们还表明,在多语言环境中,更大的模型并不一定比较小的模型表现更好。
  • 图表
  • 解决问题
    M5是第一个针对多语言和多文化背景下的多模态视觉语言任务的综合基准测试。
  • 关键思路
    本文提出了M5基准测试,用于评估大型多模态模型在多语言和多文化环境下的性能,包括8个数据集,涵盖5个任务和41种语言。同时,本文引入了两个新数据集,M5-VGR和M5-VLOD,其中包括一个新的视觉-语言异常检测任务。此外,本文还发现高资源语言和低资源语言之间存在重大的性能差异,同时证明在多语言环境中,更大的模型不一定比较小的模型表现更好。
  • 其它亮点
    本文的亮点包括针对多语言和多文化背景下的多模态视觉语言任务的全面基准测试,以及涵盖了41种语言和8个数据集的广泛实验和分析。此外,本文还引入了两个新数据集,并发现了高资源语言和低资源语言之间的重大性能差异。
  • 相关研究
    与本文相关的研究包括T5、GShard等大型语言模型的研究,以及其他多语言和多模态任务的基准测试研究,如XGLUE、MM-IMDb等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论