
多模态大语言模型在视频理解上进展显著,但处理长时长高分辨率视频时仍面临效率瓶颈:现有模型对所有像素一视同仁,忽略海量时空冗余。智源Talk359期邀请了 Physical Intelligence 史百丰线上分享《Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing》。提出AutoGaze轻量级模块,采用自回归眼动方式主动移除冗余视觉 patch,可将 token 数减少 4 至 100 倍、推理速度最高提升 19 倍,使模型首次支持 1000 帧 4K 视频理解,并推出首个高分辨率长视频问答基准 HLVid。欢迎讨论交流。
论文地址:https://arxiv.org/abs/2603.12254v1
议题详情:
报告嘉宾:
史百丰博士在 Physical Intelligence 担任 Member of Technical Staff,主要从事基础计算机视觉与机器人模型的研究。他于 2026 年在加州大学伯克利分校获得博士学位,师从 Trevor Darrell 教授。在计算机视觉、机器学习与机器人学习领域的 CVPR、ICCV、ECCV、ICLR、ICML、NeurIPS、CoRL 等顶级会议上发表论文近 20 篇,并多次被评为口头报告/亮点论文。

电脑端观看地址

第八届智源大会 相约6月12日-13日
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢