报告主题:视频生成|北大,基于金字塔流的高效自回归视频生成模型

报告日期:10月31日(周四)14:30-15:30

报告要点:

学习生成视频对于建模真实的物理世界动态具有重要作用。但是视频巨大的维度空间往往带来海量的数据和算力需求,这使得设计一个高效的视频生成算法尤为重要。我们观察到,视频生成模型的训练效率瓶颈主要来自于对视觉信号的压缩程度不够,传统的类似Sora范式的生成方式难以取得较高的压缩率和训练效率。在这篇工作中,我们提出了一种同时进行压缩和生成的金字塔流(Pyramid-Flow)生成建模框架。

针对视频的空间复杂度,我们设计了包含多个不同阶段分辨率的空间金字塔流。在这样的去噪轨迹中,只有最后阶段以全分辨率进行计算,大大减少了早期时间步长的冗余计算。针对视频的时间复杂度,我们设计了一种自回归式建模的时间金字塔,对长视频建模中的历史信息进行去冗余的压缩。我们提出的方法可以在单一Transformer架构下进行端到端的优化,允许在有限的预算下训练得到高分辨率(768p)、高帧率(24fps)的长视频(10s)生成模型。

报告嘉宾:

金阳,北京大学王选计算机研究所的博士研究生,导师是穆亚东长聘副教授。他的研究兴趣主要集中在多模态大语言模型、大规模预训练、图像和视频生成等领域。他在ICLR,ICML,NeurIPS,CVPR,ICCV,ECCV等顶级会议上发表多篇文章,曾多次获得北京大学校长奖学金。

他的个人主页是: https://jy0205.github.io/

扫码报名


更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除