- 简介视觉-语言模型(VLM)在语言空间中的推理能力表现出色,但在需要密集视觉感知的感知理解方面存在困难,例如空间推理和几何感知。这一局限性源于当前VLM缺乏有效机制来捕捉跨空间维度的密集视觉信息。为此,我们提出了“视觉思维链”(Chain-of-Visual-Thought, COVT)框架,使VLM不仅能够通过文字进行推理,还能借助连续的视觉标记——即编码丰富感知线索的紧凑潜在表示——进行推理。在约20个标记的小预算范围内,COVT从轻量级视觉专家模型中提炼知识,捕获包括二维外观、三维几何、空间布局和边缘结构等互补性特征。在训练过程中,配备COVT的VLM以自回归方式预测这些视觉标记,以重建密集的监督信号(如深度图、分割图、边缘图以及DINO特征)。在推理阶段,模型直接在连续的视觉标记空间中进行推理,在保持高效性的同时,可选择性地解码生成密集预测结果以增强可解释性。在涵盖CV-Bench、MMVP、RealWorldQA、MMStar、WorldMedQA和HRBench在内的十余项多样化感知基准测试中,将COVT集成到Qwen2.5-VL和LLaVA等先进VLM中后,性能持续提升3%至16%,结果表明,紧凑的连续视觉思维能够实现更精确、更 grounded(与真实感知对齐)且更具可解释性的多模态智能。
-
- 图表
- 解决问题当前的视觉-语言模型(VLMs)在语言推理方面表现出色,但在需要密集视觉感知的任务(如空间推理和几何理解)上表现不佳,主要因为缺乏对跨空间维度的密集视觉信息的有效捕捉机制。这个问题尚未被充分解决,尤其是在保持模型效率的同时提升细粒度感知能力。
- 关键思路提出Chain-of-Visual-Thought(COVT)框架,使VLM不仅能通过文字推理,还能通过一组紧凑的连续视觉token进行‘视觉思维’。这些视觉token从轻量级视觉专家模型中提取,编码2D外观、3D几何、空间布局和边缘结构等丰富感知线索,并在训练时用于重建深度、分割、边缘等密集监督信号;推理时直接在视觉token空间中进行推理,兼顾效率与感知精度。
- 其它亮点在超过十个多样化感知基准(如CV-Bench、MMVP、RealWorldQA、MMStar、WorldMedQA、HRBench)上验证了COVT的有效性,集成到Qwen2.5-VL和LLaVA等强VLM中后性能一致提升3%至16%。训练时采用自回归方式预测视觉token以重建密集监督信号,推理时可选择性解码生成可视化输出以增强可解释性。该方法展示了仅用约20个token即可实现高效且精确的多模态理解。论文强调了‘紧凑连续视觉思维’的价值,但未明确提及代码是否开源。
- 1. Flamingo: Visual Language Models for Few-Shot Learning 2. PaLI: A Jointly-Scaled Multimodal Language Model 3. LLaVA: Large Language and Vision Assistant 4. Qwen-VL: A Versatile Vision-Language Model for Understanding and Generation 5. KOSMOS-1: Multimodal Foundation Model with Autoregressive Language Modeling 6. Visual Instruction Tuning (InstructBLIP) 7. Pixel-Level Alignment for Vision-Language Models via Dense Captioning
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流