Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems

Xupeng Miao ,
Gabriele Oliaro ,
Zhihao Zhang ,
Xinhao Cheng ,
Hongyi Jin ,
Tianqi Chen ,
Zhihao Jia
2023年12月23日
  • 简介
    在人工智能(AI)快速发展的领域中,生成式大型语言模型(LLM)处于前沿,彻底改变了我们与数据交互的方式。然而,部署这些模型所需的计算强度和内存消耗在服务效率方面提出了重大挑战,特别是在需要低延迟和高吞吐量的场景中。本文从机器学习系统(MLSys)研究的角度,探讨了有效的LLM服务方法的迫切需求,这是先进的AI创新和实际系统优化的关键。我们提供了深入的分析,涵盖了一系列解决方案,从前沿的算法修改到系统设计的重大变革。本文旨在全面了解有效的LLM服务的当前状态和未来方向,为研究人员和从业人员提供有价值的见解,克服有效部署LLM的障碍,从而重塑AI的未来。
  • 图表
  • 解决问题
    如何提高大型语言模型(LLM)的效率,以应对需要低延迟和高吞吐量的场景?
  • 关键思路
    通过算法和系统设计的改进,提高LLM的效率,包括减少计算和内存消耗,优化模型结构和缩短推理时间等方面。
  • 其它亮点
    论文提供了广泛的解决方案,包括模型压缩、剪枝、量化和分布式推理等。同时,论文还介绍了一些开源数据集和代码,为研究者和从业者提供了有价值的资源。值得深入研究的工作包括如何在保持模型效果的同时提高效率,以及如何应对更加复杂的场景。
  • 相关研究
    最近的相关研究包括《Efficient Transformers: A Survey》、《Optimizing Transformer-based Chinese Text Generation with a Layer-wise Coordination Strategy》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论