A Survey on Efficient Inference for Large Language Models

简介

大型语言模型（LLMs）由于在各种任务中表现出色而受到广泛关注。然而，LLM推理所需的大量计算和内存资源在资源受限的情况下部署时会带来挑战。该领域的努力集中于开发旨在提高LLM推理效率的技术。本文对现有文献进行了全面调查，首先分析了LLM推理效率低下的主要原因，即大模型大小、二次复杂度的注意力操作和自回归解码方法。然后，我们引入了一个全面的分类法，将当前文献分为数据级、模型级和系统级优化。此外，本文还包括关键子领域内代表性方法的比较实验，以提供定量见解。最后，我们提供了一些知识总结并讨论了未来的研究方向。
图表
解决问题

高效的大语言模型推理
关键思路

通过在数据级别、模型级别和系统级别进行优化，提高大语言模型推理的效率
其它亮点

介绍了大语言模型推理效率低下的主要原因：模型尺寸大、注意力机制复杂度高、自回归解码方法等。提出了数据级别、模型级别和系统级别优化的分类方法，并进行了实验比较不同方法的效果。
相关研究

最近的相关研究包括：Efficient Transformers、Lightweight Transformers、TinyBERT等。