- 简介本文介绍了一种名为自适应N元并行解码(ANPD)的创新和无损方法,可以加速推理过程,允许同时生成多个令牌,从而消除了大型语言模型(LLMs)由于自回归处理而导致的显著资源消耗和相当的延迟。ANPD采用两阶段方法:首先是快速起草阶段,采用N元模块,根据当前交互上下文进行自适应,然后是验证阶段,原始LLM评估和确认所提出的令牌。因此,ANPD在增强处理速度的同时保留了LLM原始输出的完整性。此外,我们采用多级体系结构的N元模块,以提高初始起草的精度,从而降低推理延迟。ANPD消除了重新训练或额外GPU内存的需要,使其成为一种高效的即插即用增强方法。在实验中,像LLaMA及其微调变体等模型显示出高达3.67倍的速度提升,验证了我们提出的ANPD的有效性。
- 图表
- 解决问题提高大型语言模型推理速度和资源利用率的问题。
- 关键思路提出了一种名为ANPD的方法,通过N-gram模块实现同时生成多个token,加速推理过程。ANPD包含两个阶段,第一阶段使用N-gram模块快速起草,第二阶段由原始LLM进行确认。
- 其它亮点ANPD方法可以提高推理速度,而且不需要重新训练或额外的GPU内存,因此非常高效。在实验中,LLaMA和其微调版本的速度提高了3.67倍。
- 近期的相关研究包括使用缓存技术和并行计算来加速推理过程,如《Efficient Transformers: A Survey》和《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》。
沙发等你来抢
去评论
评论
沙发等你来抢