- 简介视觉-语言模型(VLM)在语言空间中的推理能力表现出色,但在需要密集视觉感知的感知理解方面仍存在困难,例如空间推理和几何感知。这一局限性源于当前的VLM缺乏有效的机制来捕捉跨空间维度的密集视觉信息。为此,我们提出了“视觉思维链”(Chain-of-Visual-Thought, COVT),该框架使VLM不仅能够通过文字进行推理,还能借助连续的视觉标记(visual tokens)——即编码丰富感知线索的紧凑潜在表示——进行推理。在约20个标记的小规模预算内,COVT从轻量级视觉专家模型中提炼知识,捕获包括二维外观、三维几何、空间布局以及边缘结构等互补性特征。在训练过程中,配备COVT的VLM以自回归方式预测这些视觉标记,以重建密集的监督信号(如深度图、分割图、边缘图以及DINO特征)。在推理阶段,模型直接在连续的视觉标记空间中进行推理,在保持高效性的同时,可选择性地解码出密集预测结果以增强可解释性。在涵盖CV-Bench、MMVP、RealWorldQA、MMStar、WorldMedQA和HRBench在内的十余个多样化感知基准上的评估表明,将COVT集成到Qwen2.5-VL和LLaVA等先进VLM中后,性能持续提升3%至16%,证明了紧凑的连续视觉思维能够实现更精确、更 grounded(与真实感知对齐)且更具可解释性的多模态智能。
-
- 图表
- 解决问题当前的视觉-语言模型(VLMs)在语言推理方面表现出色,但在需要密集视觉感知的任务(如空间推理和几何理解)上表现不佳,因为它们缺乏有效的机制来捕捉跨空间维度的密集视觉信息。这个问题限制了VLMs在需要精细视觉理解任务中的应用,尽管已有研究尝试引入额外模态或后处理模块,但尚未有效解决视觉表征的密度与推理过程之间的耦合问题。
- 关键思路提出Chain-of-Visual-Thought(COVT)框架,使VLM不仅能通过文字进行思维链推理,还能通过一组紧凑的连续视觉token进行‘视觉思考’。这些视觉token从轻量级视觉专家模型中提取,编码2D外观、3D几何、空间布局和边缘结构等丰富感知线索,并以约20个token的小预算融入VLM训练与推理过程。训练时,模型自回归地预测这些token以重建密集监督信号;推理时则直接在视觉token空间中推理,保持高效并支持可选的解码用于解释性输出。
- 其它亮点在超过十个多样化感知基准(包括CV-Bench、MMVP、RealWorldQA、MMStar、WorldMedQA和HRBench)上验证了COVT的有效性,集成到Qwen2.5-VL和LLaVA等强VLM中后性能一致提升3%至16%。实验设计系统性强,覆盖多类型密集预测任务(深度估计、分割、边缘检测、DINO特征重建),且强调效率与可解释性的平衡。论文展示了‘连续视觉token作为推理媒介’的新范式,为未来低带宽高保真的跨模态表示提供了方向。目前未提及代码是否开源,值得后续关注。
- 1. Flamingo: Visual Language Models for Few-Shot Learning 2. PaLI: A Jointly-Scaled Multilingual Language-Image Model 3. KOSMOS-1: Multimodal Foundation Models as Generalists 4. Visual Instruction Tuning (LLaVA) 5. Qwen-VL and Qwen2.5-VL: Scalable Vision-Language Architectures 6. Diffusion Features as Visual Experts for Image Generation and Understanding 7. DINOv2: Learning Robust Visual Features by Breaking Covariances 8. Perception-as-Language: Towards Unified Dense Visual Representation
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流