Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens

向作者提问

NEW

简介

视觉-语言模型（VLM）在语言空间中的推理能力表现出色，但在需要密集视觉感知的感知理解方面仍存在困难，例如空间推理和几何感知。这一局限性源于当前的VLM缺乏有效的机制来捕捉跨空间维度的密集视觉信息。为此，我们提出了“视觉思维链”（Chain-of-Visual-Thought, COVT），该框架使VLM不仅能够通过文字进行推理，还能借助连续的视觉标记（visual tokens）——即编码丰富感知线索的紧凑潜在表示——进行推理。在约20个标记的小规模预算内，COVT从轻量级视觉专家模型中提炼知识，捕获包括二维外观、三维几何、空间布局以及边缘结构等互补性特征。在训练过程中，配备COVT的VLM以自回归方式预测这些视觉标记，以重建密集的监督信号（如深度图、分割图、边缘图以及DINO特征）。在推理阶段，模型直接在连续的视觉标记空间中进行推理，在保持高效性的同时，可选择性地解码出密集预测结果以增强可解释性。在涵盖CV-Bench、MMVP、RealWorldQA、MMStar、WorldMedQA和HRBench在内的十余个多样化感知基准上的评估表明，将COVT集成到Qwen2.5-VL和LLaVA等先进VLM中后，性能持续提升3%至16%，证明了紧凑的连续视觉思维能够实现更精确、更 grounded（与真实感知对齐）且更具可解释性的多模态智能。
作者讲解·1
- 讲解视频(1)
- 相关报道
图表
解决问题

当前的视觉-语言模型（VLMs）在语言推理方面表现出色，但在需要密集视觉感知的任务（如空间推理和几何理解）上表现不佳，因为它们缺乏有效的机制来捕捉跨空间维度的密集视觉信息。这个问题限制了VLMs在需要精细视觉理解任务中的应用，尽管已有研究尝试引入额外模态或后处理模块，但尚未有效解决视觉表征的密度与推理过程之间的耦合问题。
关键思路

提出Chain-of-Visual-Thought（COVT）框架，使VLM不仅能通过文字进行思维链推理，还能通过一组紧凑的连续视觉token进行‘视觉思考’。这些视觉token从轻量级视觉专家模型中提取，编码2D外观、3D几何、空间布局和边缘结构等丰富感知线索，并以约20个token的小预算融入VLM训练与推理过程。训练时，模型自回归地预测这些token以重建密集监督信号；推理时则直接在视觉token空间中推理，保持高效并支持可选的解码用于解释性输出。
其它亮点

在超过十个多样化感知基准（包括CV-Bench、MMVP、RealWorldQA、MMStar、WorldMedQA和HRBench）上验证了COVT的有效性，集成到Qwen2.5-VL和LLaVA等强VLM中后性能一致提升3%至16%。实验设计系统性强，覆盖多类型密集预测任务（深度估计、分割、边缘检测、DINO特征重建），且强调效率与可解释性的平衡。论文展示了‘连续视觉token作为推理媒介’的新范式，为未来低带宽高保真的跨模态表示提供了方向。目前未提及代码是否开源，值得后续关注。
相关研究

1. Flamingo: Visual Language Models for Few-Shot Learning 2. PaLI: A Jointly-Scaled Multilingual Language-Image Model 3. KOSMOS-1: Multimodal Foundation Models as Generalists 4. Visual Instruction Tuning (LLaVA) 5. Qwen-VL and Qwen2.5-VL: Scalable Vision-Language Architectures 6. Diffusion Features as Visual Experts for Image Generation and Understanding 7. DINOv2: Learning Robust Visual Features by Breaking Covariances 8. Perception-as-Language: Towards Unified Dense Visual Representation

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问