- 简介随着基于Transformer的大型语言模型(LLMs)越来越受欢迎,降低其高推理成本已成为重要的研究重点。一种有效的方法是压缩长输入上下文。现有方法通常利用LLM本身的自注意机制进行上下文压缩。虽然这些方法取得了显着的成果,但压缩过程仍涉及二次时间复杂度,这限制了它们的适用性。为了缓解这种限制,我们提出了In-Context Former(IC-Former)。与以前的方法不同,IC-Former不依赖于目标LLMs。相反,它利用交叉注意机制和少量可学习的摘要标记直接从上下文词嵌入中压缩信息。这种方法显着降低了推理时间,在压缩范围内实现了时间复杂度的线性增长。实验结果表明,我们的方法在压缩过程中只需要基线的1/32的浮点运算,同时在评估指标上实现了超过90%的基线性能提升,处理速度提高了68到112倍。总体而言,我们的模型有效降低了压缩成本,使实时压缩场景成为可能。
- 图表
- 解决问题论文旨在解决Transformer-based LLMs高推理成本的问题,提出了一种新的上下文压缩方法。
- 关键思路IC-Former利用交叉注意力机制和少量可学习的摘要标记直接压缩上下文词嵌入,从而实现了线性时间复杂度的上下文压缩。
- 其它亮点IC-Former在压缩过程中只需要目标LLMs的1/32的浮点运算,可以提高处理速度68到112倍,并在评估指标上实现了基线90%以上的性能。
- 与此相关的研究包括使用自注意机制的上下文压缩方法,但这些方法仍然具有二次时间复杂度,限制了它们的适用性。
沙发等你来抢
去评论
评论
沙发等你来抢