CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations

2024年02月06日
  • 简介
    视觉语言模型(VLM)通过广泛的训练将视觉指令与答案对齐,证明了它们的广泛适用性。然而,这种确定性的对齐使得模型忽视了关键的视觉推理,进而导致在细致的视觉问题和不忠实的响应方面失败。本文提出了一种名为“操作链”的机制,它使得VLM能够通过一系列操作来解决问题,其中每个操作都是对视觉输入的操作,可以是通过先前训练获得的内在能力(例如基础)或模仿类人行为(例如缩放)。这种机制鼓励VLM生成具有证据性的视觉推理的忠实响应,并允许用户在可解释的路径上跟踪错误原因。因此,我们训练了CogCoM,一个带有这种推理机制的通用17B VLM,具有基于内存的兼容架构。实验证明,我们的模型在来自3个类别的8个基准测试中实现了最先进的性能,有限的训练步骤迅速获得了竞争性能。代码和数据可在https://github.com/THUDM/CogCoM上公开获取。
  • 图表
  • 解决问题
    本文旨在解决Vision-Language Models(VLMs)在视觉推理方面的缺陷,导致模型在细致的视觉问题上失败并产生不忠实的响应。
  • 关键思路
    本文提出了Chain of Manipulations机制,通过对视觉输入进行一系列操作,使VLMs能够具备证据性的视觉推理,并生成忠实的响应。
  • 其它亮点
    本文使用17B VLM CogCoM进行实验,结果表明在三个类别的8个基准测试中,该模型实现了最先进的性能,并且使用有限的训练步骤快速获得了竞争性的性能。此外,作者公开了代码和数据。
  • 相关研究
    在这个领域中,最近的相关研究包括《Visual Reasoning Beyond Direct Supervision》、《Learning to Compose Dynamic Tree Structures for Visual Contexts》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论