CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations

简介

视觉语言模型（VLM）通过广泛的训练将视觉指令与答案对齐，证明了它们的广泛适用性。然而，这种确定性的对齐使得模型忽视了关键的视觉推理，进而导致在细致的视觉问题和不忠实的响应方面失败。本文提出了一种名为“操作链”的机制，它使得VLM能够通过一系列操作来解决问题，其中每个操作都是对视觉输入的操作，可以是通过先前训练获得的内在能力（例如基础）或模仿类人行为（例如缩放）。这种机制鼓励VLM生成具有证据性的视觉推理的忠实响应，并允许用户在可解释的路径上跟踪错误原因。因此，我们训练了CogCoM，一个带有这种推理机制的通用17B VLM，具有基于内存的兼容架构。实验证明，我们的模型在来自3个类别的8个基准测试中实现了最先进的性能，有限的训练步骤迅速获得了竞争性能。代码和数据可在https://github.com/THUDM/CogCoM上公开获取。
图表
解决问题

本文旨在解决Vision-Language Models（VLMs）在视觉推理方面的缺陷，导致模型在细致的视觉问题上失败并产生不忠实的响应。
关键思路

本文提出了Chain of Manipulations机制，通过对视觉输入进行一系列操作，使VLMs能够具备证据性的视觉推理，并生成忠实的响应。
其它亮点

本文使用17B VLM CogCoM进行实验，结果表明在三个类别的8个基准测试中，该模型实现了最先进的性能，并且使用有限的训练步骤快速获得了竞争性的性能。此外，作者公开了代码和数据。
相关研究

在这个领域中，最近的相关研究包括《Visual Reasoning Beyond Direct Supervision》、《Learning to Compose Dynamic Tree Structures for Visual Contexts》等。

CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations

评论