- 简介最近,像GPT-4V这样的视觉语言模型在各种视觉语言任务上取得了令人难以置信的进展。我们探讨了基于视觉的演绎推理这一更为复杂但较少被探索的领域,并发现了当前最先进的视觉语言模型存在未曾发现的盲点。具体而言,我们利用了Raven's Progressive Matrices (RPMs)来评估VLMs仅依赖于视觉线索执行多跳关系和演绎推理的能力。我们对几个流行的VLMs进行了全面的评估,采用了标准策略,例如上下文学习、自我一致性和思维链 (CoT),并在三个不同的数据集上进行了测试,包括Mensa智商测试、智力测试和RAVEN测试。结果表明,尽管LLMs在基于文本的推理方面具有令人印象深刻的能力,但在视觉演绎推理方面,我们仍远远没有达到可比较的熟练水平。我们发现,一些在LLMs上应用有效的标准策略在视觉推理任务中并不能无缝转换。此外,详细分析表明,VLMs难以解决这些任务,主要是因为它们无法感知和理解RPM示例中的多个混杂的抽象模式。
- 图表
- 解决问题评估当前最先进的视觉语言模型在视觉推理方面的表现,发现它们在多跳关系和演绎推理方面存在盲点。
- 关键思路使用 Raven's Progressive Matrices(RPMs)评估多个流行的视觉语言模型在多跳关系和演绎推理方面的表现,揭示了它们无法感知和理解 RPM 示例中的多个混杂抽象模式的原因。
- 其它亮点论文使用了三个数据集进行全面评估,提出了一些标准策略以解决视觉推理问题,但发现这些策略并不能完美地应用于视觉推理任务。此外,论文还分析了 VLMs 解决这些任务的困难之处。
- 最近的相关研究包括《GPT-4V: Vision-based Deductive Reasoning with Language-Conditioned Embeddings》和《Improving Visual Commonsense Reasoning with Implicit Alignment》。
沙发等你来抢
去评论
评论
沙发等你来抢