- 简介大型语言模型(LLMs)的推理阶段非常昂贵。理想的LLMs推理阶段可以利用更少的计算资源,同时仍然保持其能力(例如泛化和上下文学习能力)。在本文中,我们试图回答这个问题:“在LLMs推理期间,我们可以使用浅层处理简单的实例,使用深层处理困难的实例吗?”为了回答这个问题,我们首先通过统计分析跨任务激活的层来表明并非所有层在推理期间都是必要的。然后,我们提出了一个名为AdaInfer的简单算法,根据输入实例自适应地确定推理终止时刻。更重要的是,AdaInfer不改变LLM参数,并且在任务之间保持泛化能力。对知名LLMs(即Llama2系列和OPT)的实验表明,AdaInfer节省了平均14.8%的计算资源,甚至在情感任务上高达50%,同时保持可比性能。此外,该方法与其他模型加速技术无关,可能进一步提高推理效率。
- 图表
- 解决问题论文旨在回答一个问题:在LLM推理过程中,我们能否针对简单实例使用浅层,针对困难实例使用深层?
- 关键思路通过统计分析任务中激活的层,论文表明不是所有层都在推理中必要的。然后,提出了一种名为AdaInfer的简单算法,根据输入实例自适应确定推理终止时刻。AdaInfer不改变LLM参数,并保持跨任务的泛化能力。
- 其它亮点实验使用Llama2系列和OPT等知名LLM,表明AdaInfer节省了平均14.8%的计算资源,甚至在情感任务上高达50%,同时保持可比较的性能。此外,该方法与其他模型加速技术正交,可能进一步提高推理效率。
- 相关研究包括模型压缩和加速技术,如剪枝、量化、分离网络、知识蒸馏等。


提问交流