Characterizing and Efficiently Accelerating Multimodal Generation Model Inference

2024年09月30日
  • 简介
    生成式人工智能技术正在革新计算机行业,其应用不仅已经扩展到各个领域,而且还带来了新的系统设计和优化机会。该技术能够理解和响应多种模式。然而,目前这种先进的能力需要大量的系统资源。为了可持续地将生成式人工智能能力扩展到全球数十亿用户,推理必须快速高效。本文通过对一类新兴的多模式生成模型在真实系统上的特征化,确定了关键的系统设计和优化机会。自回归令牌生成是关键的延迟性能瓶颈,通常由GPU空闲时间主导。除了生成式人工智能模型中的记忆密集型注意力外,基于Transformer的模型中的前馈网络中的线性运算也构成了重要的推理延迟。我们证明了从应用到系统软件和硬件的最先进的优化手段可以提高3.88倍的基线。
  • 作者讲解
  • 图表
  • 解决问题
    如何优化多模态生成模型的系统设计,以实现快速高效的推理,以便可持续地扩展生成AI能力到全球数十亿用户?
  • 关键思路
    通过对一系列新兴多模态生成模型在真实系统上的表现进行表征,找到关键的系统设计和优化机会,包括GPU空闲时间、内存密集型注意力和线性操作等方面,提出了一系列优化方法,能够将基准性能提高3.88倍。
  • 其它亮点
    论文提出了一系列优化方法,包括应用、系统软件和硬件等方面的优化,能够将基准性能提高3.88倍;实验使用了多个数据集,并开源了代码;值得进一步研究的工作包括如何应对更大规模的生成模型和更多的多模态输入。
  • 相关研究
    最近相关的研究包括《MegatronLM: Training Multi-Billion Parameter Language Models Using Model Parallelism》、《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问