- 简介我们提出了LogicVista,一个评估基准,评估多模态大语言模型(MLLMs)在视觉环境下的综合逻辑推理能力。最近MLLMs的进展展示了各种各样的迷人能力,从基于图像创作诗歌到执行数学推理。然而,仍然缺乏系统评估MLLMs在逻辑推理任务中的熟练程度,这对于导航和解谜等活动至关重要。因此,我们使用448个多项选择题的样本,评估跨越9种不同能力的5个逻辑推理任务中的通用逻辑认知能力。每个问题都注释了正确答案和人类编写的选择背后的推理,从而实现了开放式和多项选择式评估。LogicVista全面评估了8个MLLMs。代码和数据可在https://github.com/Yijia-Xiao/LogicVista获得。
- 图表
- 解决问题LogicVista的目标是评估多模式大语言模型(MLLMs)在视觉环境中的综合逻辑推理能力。这篇论文试图解决缺乏系统性评估MLLMs在逻辑推理任务中的表现的问题。
- 关键思路该论文提出了一个评估基准,包括5个逻辑推理任务和448个多项选择题,涵盖了9种不同的能力。每个问题都有正确答案和人类编写的选择背后的推理,可以进行开放式和多项选择评估。8个MLLMs进行了全面评估。
- 其它亮点该论文的亮点包括使用多项选择和开放式评估方法,提供了一个全面的逻辑推理评估基准。同时,作者提供了数据集和代码,方便其他研究人员进行进一步研究。
- 最近在这个领域中,还有一些相关研究,如:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
沙发等你来抢
去评论
评论
沙发等你来抢