Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens

向作者提问

NEW

简介

视觉-语言模型（VLM）在语言空间中的推理能力表现出色，但在需要密集视觉感知的感知理解方面存在困难，例如空间推理和几何感知。这一局限性源于当前VLM缺乏有效机制来捕捉跨空间维度的密集视觉信息。为此，我们提出了“视觉思维链”（Chain-of-Visual-Thought, COVT）框架，使VLM不仅能够通过文字进行推理，还能借助连续的视觉标记——即编码丰富感知线索的紧凑潜在表示——进行推理。在约20个标记的小预算范围内，COVT从轻量级视觉专家模型中提炼知识，捕获包括二维外观、三维几何、空间布局和边缘结构等互补性特征。在训练过程中，配备COVT的VLM以自回归方式预测这些视觉标记，以重建密集的监督信号（如深度图、分割图、边缘图以及DINO特征）。在推理阶段，模型直接在连续的视觉标记空间中进行推理，在保持高效性的同时，可选择性地解码生成密集预测结果以增强可解释性。在涵盖CV-Bench、MMVP、RealWorldQA、MMStar、WorldMedQA和HRBench在内的十余项多样化感知基准测试中，将COVT集成到Qwen2.5-VL和LLaVA等先进VLM中后，性能持续提升3%至16%，结果表明，紧凑的连续视觉思维能够实现更精确、更 grounded（与真实感知对齐）且更具可解释性的多模态智能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

当前的视觉-语言模型（VLMs）在语言推理方面表现出色，但在需要密集视觉感知的任务（如空间推理和几何理解）上表现不佳，主要因为缺乏对跨空间维度的密集视觉信息的有效捕捉机制。这个问题尚未被充分解决，尤其是在保持模型效率的同时提升细粒度感知能力。
关键思路

提出Chain-of-Visual-Thought（COVT）框架，使VLM不仅能通过文字推理，还能通过一组紧凑的连续视觉token进行‘视觉思维’。这些视觉token从轻量级视觉专家模型中提取，编码2D外观、3D几何、空间布局和边缘结构等丰富感知线索，并在训练时用于重建深度、分割、边缘等密集监督信号；推理时直接在视觉token空间中进行推理，兼顾效率与感知精度。
其它亮点

在超过十个多样化感知基准（如CV-Bench、MMVP、RealWorldQA、MMStar、WorldMedQA、HRBench）上验证了COVT的有效性，集成到Qwen2.5-VL和LLaVA等强VLM中后性能一致提升3%至16%。训练时采用自回归方式预测视觉token以重建密集监督信号，推理时可选择性解码生成可视化输出以增强可解释性。该方法展示了仅用约20个token即可实现高效且精确的多模态理解。论文强调了‘紧凑连续视觉思维’的价值，但未明确提及代码是否开源。
相关研究

1. Flamingo: Visual Language Models for Few-Shot Learning 2. PaLI: A Jointly-Scaled Multimodal Language Model 3. LLaVA: Large Language and Vision Assistant 4. Qwen-VL: A Versatile Vision-Language Model for Understanding and Generation 5. KOSMOS-1: Multimodal Foundation Model with Autoregressive Language Modeling 6. Visual Instruction Tuning (InstructBLIP) 7. Pixel-Level Alignment for Vision-Language Models via Dense Captioning

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问