明日直播｜“画”出视觉思考过程，伯克利CoVT为VLM装上“视觉思维投影仪”，连续视觉token稳定带来 3%–16%的性能提升

报告主题：链式视觉思维（CoVT）框架，让VLM看得更清，想得更准

报告日期：12月09日（周二）10:30-11:30

报告要点:

本期报告将由北京大学秦艺铭进行分享。

视觉-语言模型（VLM）在语言空间中的推理表现卓越，但在密集视觉的理解方面有所不足。这一局限源于当前 VLM 在跨空间维度捕获大量视觉信息的能力比较有限。为此，我们提出 Chain-of-Visual-Thought（CoVT），在标准 VLM 的自回归“下一token预测”范式上，引入一类新的连续视觉token（Continuous Visual Tokens），从而在推理链（CoT）中更直接地展示模型的视觉思维。在训练过程中，模型被要求预测这些视觉 token，再通过解码器（decoder）重建对应的视觉特征。并通过重建损失进行反向传播，使模型内部视觉理解能力对齐对应的vision encoder。

为覆盖各种不同视觉场所，我们为CoVT 设计了四类视觉token，并分别由不同vision encoder“专家”做监督：

Segmentation tokens：由 SAM 监督，产生8个token作为 mask prompt。

Depth tokens：由 DepthAnything v2 监督，产生4 个 token 用于重建深度图。
Edge tokens：由 PIDINet 监督，产生4 个 token 用于重建边缘图。
DINO tokens：由 DINOv2 特征监督，直接对齐DINOv2 Encoder输出的特征。

在大约 20 个 token小预算下，CoVT 从多种视觉专家（Vision Encoder）中捕捉知识，捕获二维外观、三维几何、空间布局和边缘结构等互补属性。将 CoVT 集成到 Qwen2.5-VL 和 LLaVA 等强大 VLM 中，在包括 CV-Bench、MMVP、RealWorldQA、MMStar、WorldMedQA 和 HRBench 在内的十余个多样化感知基准上进行评估表明，可稳定带来 3%–16% 的性能提升，证明紧凑的连续视觉思维能够帮助更精确、更扎实且更具可解释性的多模态智能。

报告嘉宾：

秦艺铭，北京大学智班 22 级本科生，师从智班22级班主任、王选计算机研究所博士生导师刘洋。此前于加州大学伯克利分校交换，在 BAIR 科研实习，师从 Trevor Darrell，与 XuDong Wang 密切合作。研究兴趣主要是 Vision-Language Models 和 Generative Models。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题，请及时与我们联系删除

明日直播｜“画”出视觉思考过程，伯克利CoVT为VLM装上“视觉思维投影仪”，连续视觉token稳定带来 3%–16%的性能提升

评论列表

评论