- 简介大型多模态模型(LMMs)在视觉-语言(VL)任务中展现出显著的潜力,作为通用型模型。然而,在需要结合基本 VL 能力的复杂任务中,以及涉及复杂指令接地的任务中,最先进的 LMM 与人类表现之间仍存在显著差距。为了深入研究人类与 LMM 之间的差距及其根本原因,我们提出了 MOAT,这是一个包含复杂现实世界 VL 任务的多样化基准测试,这些任务对 LMM 来说具有挑战性。具体而言,MOAT 中的任务要求 LMM 通过整合基本的 VL 能力(如读取文本、计数、理解空间关系、接地文本和视觉指令等)来进行通用问题解决。所有这些能力都被纳入我们提出的包含 10 种基本 VL 能力的分类体系中,使 MOAT 能够提供关于 LMM 强项和弱项的精细分析视角。此外,MOAT 是首个明确评估 LMM 接地复杂文本和视觉指令能力的基准测试,这一能力对许多实际应用场景至关重要。我们在 MOAT 上评估了超过 20 款专有和开源的 LMM,以及人类的表现,发现人类达到了 82.7% 的准确率,而表现最佳的 LMM(OpenAI o1)仅达到 38.8%。为了指导未来模型的发展,我们分析了结果中的共同趋势,并讨论了 LMM 与人类之间性能差距的根本原因,重点关注哪些 VL 能力在复杂任务中形成瓶颈、测试时扩展是否能提升在 MOAT 上的表现,以及拼贴如何损害 LMM 的计数能力。代码和数据可在 https://cambrian-yzt.github.io/MOAT 获取。
- 图表
- 解决问题论文试图解决大型多模态模型(LMMs)在复杂视觉-语言任务中的性能与人类水平之间的差距问题。这是一个已有但尚未完全解决的问题,特别是在涉及复杂指令接地的任务中。
- 关键思路论文提出了MOAT,一个包含复杂现实世界视觉-语言任务的基准测试,用于评估LMMs的综合能力。MOAT基于10种基本视觉-语言能力的分类法设计任务,能够细粒度地分析LMMs的优势和劣势。相比现有研究,MOAT首次明确评估了LMMs对复杂文本和视觉指令的接地能力。
- 其它亮点亮点包括:1) MOAT涵盖多种复杂任务,如阅读文本、计数、理解空间关系等;2) 实验评估了超过20个专有和开源LMMs,并与人类表现进行对比,发现最佳LMM的准确率仅为人类的一半左右;3) 提供代码和数据以促进未来研究;4) 分析了LMMs性能瓶颈的具体原因,例如计数能力受平铺策略影响。值得深入研究的方向包括改进模型在复杂任务上的泛化能力和指令接地能力。
- 相关研究包括:1) CLIP、FLAVA等多模态模型的研究,主要关注图像-文本匹配和生成任务;2) VQAv2、GQA等视觉问答基准,侧重于单一任务评估;3) MIMIC-IT、Hateful Memes等多模态理解任务的研究;4) COCO Captioning和Flickr30k等图像描述生成任务。此外,近期工作如BLIP、GIT也探索了多模态预训练及其下游应用。
沙发等你来抢
去评论
评论
沙发等你来抢