Parallelized Autoregressive Visual Generation

2024年12月19日
  • 简介
    自回归模型在视觉生成方面展现出强大的能力,但由于其逐个标记的顺序预测过程,导致推理速度较慢。在本文中,我们提出了一种简单而有效的方法,实现并行化的自回归视觉生成,从而提高生成效率,同时保留自回归建模的优势。我们的核心见解是,并行生成依赖于视觉标记之间的依赖关系——依赖性较弱的标记可以并行生成,而相邻且依赖性强的标记难以一起生成,因为它们的独立采样可能导致不一致。基于这一观察,我们开发了一种并行生成策略:对依赖性较弱的远距离标记进行并行生成,同时保持依赖性强的局部标记的顺序生成。我们的方法可以无缝集成到标准的自回归模型中,无需修改架构或分词器。在ImageNet和UCF-101上的实验表明,我们的方法在图像和视频生成任务中实现了3.6倍的速度提升,且质量相当;而在允许轻微质量下降的情况下,速度提升可达9.5倍。我们希望这项工作能够激发未来在高效视觉生成和统一自回归建模方面的研究。项目页面:https://epiphqny.github.io/PAR-project。
  • 图表
  • 解决问题
    该论文试图解决自回归模型在视觉生成任务中的推理速度慢的问题。由于自回归模型需要逐个预测token,导致其在图像和视频生成中效率低下。这并不是一个全新的问题,但现有的解决方案往往未能在提高速度的同时保持生成质量。
  • 关键思路
    关键思路是通过分析视觉token之间的依赖关系,提出了一种并行生成策略。具体来说,对于依赖性较弱的远距离token进行并行生成,而对于依赖性强的局部token则保持顺序生成。这种方法可以在不修改模型架构或分词器的情况下无缝集成到现有的自回归模型中,从而显著提升生成效率,同时保持或仅轻微降低生成质量。
  • 其它亮点
    该研究的主要亮点包括:1) 实验设计涵盖了ImageNet和UCF-101数据集,验证了方法在图像和视频生成任务中的有效性;2) 实现了3.6倍至9.5倍的速度提升,且质量损失极小;3) 提供了一个项目页面(https://epiphqny.github.io/PAR-project),便于后续研究者参考和复现;4) 研究为未来的高效视觉生成和统一的自回归建模提供了新的方向。
  • 相关研究
    最近在这个领域内的一些相关研究包括:1)《Efficient Image Generation with Structured Transformer》探讨了如何通过结构化变换器提高图像生成效率;2)《Non-Autoregressive Neural Machine Translation》提出了非自回归神经机器翻译模型,以加速文本生成;3)《Parallel WaveNet: Fast High-Fidelity Speech Synthesis》介绍了用于快速高保真语音合成的并行WaveNet模型;4)《Fastformer: Additive Attention Can Be All You Need》则探索了加法注意力机制在加速Transformer模型中的应用。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论