- 简介视觉语言模型(VLM)通过广泛的训练将视觉指令与答案对齐,证明了它们的广泛适用性。然而,这种确定性的对齐使得模型忽视了关键的视觉推理,进而导致在细致的视觉问题和不忠实的响应方面失败。本文提出了一种名为“操作链”的机制,它使得VLM能够通过一系列操作来解决问题,其中每个操作都是对视觉输入的操作,可以是通过先前训练获得的内在能力(例如基础)或模仿类人行为(例如缩放)。这种机制鼓励VLM生成具有证据性的视觉推理的忠实响应,并允许用户在可解释的路径上跟踪错误原因。因此,我们训练了CogCoM,一个带有这种推理机制的通用17B VLM,具有基于内存的兼容架构。实验证明,我们的模型在来自3个类别的8个基准测试中实现了最先进的性能,有限的训练步骤迅速获得了竞争性能。代码和数据可在https://github.com/THUDM/CogCoM上公开获取。
- 图表
- 解决问题本文旨在解决Vision-Language Models(VLMs)在视觉推理方面的缺陷,导致模型在细致的视觉问题上失败并产生不忠实的响应。
- 关键思路本文提出了Chain of Manipulations机制,通过对视觉输入进行一系列操作,使VLMs能够具备证据性的视觉推理,并生成忠实的响应。
- 其它亮点本文使用17B VLM CogCoM进行实验,结果表明在三个类别的8个基准测试中,该模型实现了最先进的性能,并且使用有限的训练步骤快速获得了竞争性的性能。此外,作者公开了代码和数据。
- 在这个领域中,最近的相关研究包括《Visual Reasoning Beyond Direct Supervision》、《Learning to Compose Dynamic Tree Structures for Visual Contexts》等。
沙发等你来抢
去评论
评论
沙发等你来抢