报告主题:面向小时级视频理解的多模态大语言模型

报告日期:12月05日(本周四)14:30-15:30

报告要点:

尽管当前的多模态大语言模型(MLLM)在视频理解方面取得了显著进展,理解超长视频仍然面临巨大挑战。一方面,视频时长的增加会导致大量的视觉token,令具有固定上下文长度的LLM难以有效处理。另一方面,视频长度的增长也带来了高昂的计算成本,包括显存消耗和计算复杂度的增加。为了解决这些问题,我们提出了Video-XL模型,充分发挥LLM的原生能力对长视觉序列进行高效压缩。具体来说,我们将长视觉序列分段编码,并在每段内将普通的视觉相关特征压缩为“VST”表示。同时,我们提出了一种动态压缩策略,依据视频的时序特征进行灵活调整,以达到最佳压缩效果。此外,为了应对高质量长视频数据的稀缺问题,我们不仅通过单图和多图知识的结合促进了长视频理解,还创新性地提出了长视频动作事件排序数据集。实验结果表明,Video-XL在多个长视频理解benchmark中表现出色,超越了同级别的其他模型,并在保证高质量压缩的同时,保持了优异的理解效果。同时,Video-XL在效率和效果之间实现了卓越的平衡,在视频“大海捞针”任务中,单个80GB GPU即可处理2048帧数据,且准确率接近95%。

报告嘉宾:

舒言,意大利特伦托大学博士一年级研究生,师从Nicu Sebe教授。他于哈尔滨工业大学取得硕士学位,曾是北京智源人工智能研究院信息检索与知识计算组成员,主要研究方向为多模态与视频理解。目前已在NeurIPS, ACM MM等人工智能顶级会议上发表多篇论文。

扫码报名


更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除