25日｜谢赛宁、李飞飞、Yann LeCun多模态「空间预测感知」新范式，纽约大学柯朗研究所杨澍生分享Cambrian-S

报告主题：世界模型「空间超感知」新范式 Cambrian-S

报告日期：12月24日（周三）10:30-11:30

报告要点：

本期报告将由纽约大学杨澍生进行分享。

本研究旨在为多模态大语言模型（MLLM）的“空间超感知”能力建立评估基准。我们首先通过诊断实验分析现有视频问答基准，发现它们主要依赖语言先验或浅层视觉感知，缺乏对高级时空推理的深入考察。为此，研究提出了新基准VSI-SUPER，包含长时空间回忆（VSR）与持续计数（VSC）两项任务，要求模型在任意长的流式视频中进行连贯的空间信息积累与推理。实验显示，即使先进模型（如Gemini-2.5-Flash），在此类任务上也表现有限，暴露出现有MLLM范式在计算效率、泛化能力和预测性认知方面的不足。

研究进一步提出“预测感知”（predictive sensing）新范式，通过自监督的下一帧潜在特征预测来量化场景“惊讶度”（surprise），并以此驱动事件分割与记忆管理。案例表明，该方法能提升模型在VSC等任务中的表现，为构建具备内部世界模型、能适应无限视觉流的下一代MLLM提供了方向。

报告嘉宾：

杨澍生（Shusheng Yang）目前是纽约大学柯朗研究所（NYU Courant）的二年级博士生，师从谢赛宁（Saining Xie）教授。他的研究聚焦于计算机视觉与多模态学习的交叉领域，重点关注视觉表征学习、空间智能、终身视频理解以及统一模型/世界模型。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题，请及时与我们联系删除

25日｜谢赛宁、李飞飞、Yann LeCun多模态「空间预测感知」新范式，纽约大学柯朗研究所杨澍生分享Cambrian-S

评论列表

评论