Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference

2024年05月28日
  • 简介
    自回归解码大型语言模型(LLMs)在硬件性能方面存在显著的开销。虽然最近的研究探讨了各种多令牌生成的推测解码技术,但这些努力主要集中在提高处理速度,如吞吐量。关键是,它们经常忽略了实际部署所必需的其他指标,例如内存消耗和训练成本。为了克服这些限制,我们提出了一种新颖的并行提示解码,只需$0.0002$%的可训练参数,即可在单个A100-40GB GPU上进行高效训练,仅需16小时。受人类自然语言生成过程的启发,PPD通过使用多个提示令牌并行地近似生成未来时间步的输出。这种方法部分恢复了多令牌生成所必需的缺失条件依赖信息,从而导致长程预测的接受率高达28%。此外,我们提出了一种硬件感知的动态稀疏树技术,自适应地优化此解码方案,以充分利用不同GPU的计算能力。通过在各种基准测试上跨越从MobileLlama到Vicuna-13B的LLMs进行广泛的实验,我们的方法表现出高达2.49倍的加速,并仅保持最小的运行时内存开销为$0.0004$%。更重要的是,我们的并行提示解码可以作为与现有推测解码的协同集成的正交优化,显示出高达$1.22\times$的进一步速度提高。我们的代码可在https://github.com/hmarkc/parallel-prompt-decoding上获得。
  • 图表
  • 解决问题
    本文旨在解决大型语言模型在自回归解码过程中的硬件性能开销问题,同时考虑内存消耗和训练成本等其他指标。
  • 关键思路
    文章提出了一种新的并行提示解码方法,仅需要0.0002%的可训练参数,可以在单个A100-40GB GPU上进行高效训练,并且可以与现有的推测解码方法相结合,进一步提高速度。
  • 其它亮点
    本文的并行提示解码方法可以提高长程预测的接受率高达28%,且仅具有极小的运行时内存开销(0.0004%)。实验结果表明,该方法在多个数据集上的性能都非常优秀,并且可以与现有的推测解码方法相结合,进一步提高速度。作者提供了开源代码。
  • 相关研究
    最近的相关研究主要集中在改进处理速度,如通过各种推测解码技术进行多令牌生成。一些研究忽略了内存消耗和训练成本等其他指标。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论