- 简介最近,像GPT-4V这样的视觉语言模型(VLMs)在各种视觉语言任务上取得了惊人的进展。我们深入探讨了基于视觉的演绎推理,这是一个更为复杂但较少探索的领域,并发现了当前最先进的VLMs中以前未曝光的盲点。具体而言,我们利用雷文渐进矩阵(RPMs)评估VLMs仅依靠视觉线索执行多跳关系和演绎推理的能力。我们对几个流行的VLMs进行了全面评估,采用标准策略,如上下文学习、自洽性和思维链(CoT)等,评估了三个不同的数据集,包括Mensa智商测试、IntelligenceTest和RAVEN。结果表明,尽管LLMs在基于文本的推理方面具有令人印象深刻的能力,但我们在视觉演绎推理方面仍远未达到可比较的熟练程度。我们发现,某些对LLMs有效的标准策略在应对视觉推理任务时并不容易转化。此外,详细分析表明,VLMs难以解决这些任务主要是因为它们无法感知和理解RPM示例中多个混淆的抽象模式。
- 图表
- 解决问题本论文试图评估当前最先进的视觉语言模型在基于视觉线索的演绎推理方面的能力,并发现了当前SOTA VLM存在的盲点。具体而言,论文使用Raven的渐进矩阵(RPMs)评估了几种流行的VLMs在执行多跳关系和演绎推理方面的能力,结果发现VLMs在视觉推理任务方面的表现仍然不如文本推理。主要原因在于VLMs难以感知和理解RPM示例中的多个混淆抽象模式。
- 关键思路论文的关键思路是使用Raven的渐进矩阵(RPMs)评估几种流行的VLMs在执行多跳关系和演绎推理方面的能力,并发现VLMs在视觉推理任务方面的表现仍然不如文本推理,主要原因在于VLMs难以感知和理解RPM示例中的多个混淆抽象模式。
- 其它亮点论文使用了多个数据集进行全面评估,包括Mensa IQ测试、IntelligenceTest和RAVEN。论文发现,一些对文本推理有效的标准策略在视觉推理任务中并不适用。此外,论文还进行了详细的分析,发现VLMs主要因为无法感知和理解RPM示例中的多个混淆抽象模式而难以解决这些任务。
- 最近的相关研究包括使用RPMs评估不同类型的AI模型的能力,例如基于记忆的模型和神经网络模型。其中一篇相关的论文是“Visual Relational Reasoning with Multi-Head Attention Recursive Neural Networks”(ICLR 2018)。
沙发等你来抢
去评论
评论
沙发等你来抢