In-context Autoencoder for Context Compression in a Large Language Model

解决问题:论文旨在解决大语言模型中的上下文压缩问题,并提出了In-context Autoencoder(ICAE)的解决方案。该方案是否全新的问题尚不确定。

关键思路:ICAE由两个模块组成:一个可学习的编码器和一个固定的解码器。编码器使用LoRA从LLM中学习,将长上下文压缩为有限数量的内存槽,而解码器是目标LLM,可以基于内存槽进行各种操作。首先,使用自编码和语言建模目标在大量文本数据上预训练ICAE,使其能够生成准确全面地表示原始上下文的内存槽。然后,我们在少量指导数据上微调预训练的ICAE,以增强其与各种提示的交互,从而产生理想的回应。实验结果表明,使用论文提出的预训练和微调范式所学习的ICAE可以有效地产生具有4倍上下文压缩的内存槽,目标LLM可以对其进行良好的条件反应以对各种提示进行回应。与当前领域的研究相比,ICAE提出了一种新颖的解决方案,有望在实践中减少LLM推理的计算和内存开销,为上下文管理提供了进一步的研究方向。

其他亮点:论文的实验结果显示,ICAE的表现非常有前途,这为解决长上下文问题提供了新的思路。此外,论文还将代码和数据开源,这对于其他研究者进行相关研究非常有价值。

关于作者:Tao Ge、Jing Hu、Xun Wang、Si-Qing Chen和Furu Wei是本文的主要作者。他们分别来自微软亚洲研究院、南京大学和北京大学。Tao Ge曾在多个会议和期刊上发表过相关的研究成果,包括EMNLP、ACL和NeurIPS等。Jing Hu曾在ACL、EMNLP和AAAI等会议上发表过多篇论文,主要研究方向为自然语言处理和机器学习。Xun Wang曾在多个国际会议和期刊上发表过相关研究成果,包括ACL、EMNLP和IEEE Transactions on Neural Networks and Learning Systems等。Si-Qing Chen在计算机视觉和自然语言处理领域也有着多年的研究经验,并且曾在多个国际会议上发表过相关研究成果。Furu Wei是微软亚洲研究院的高级研究员,曾在多个国际期刊和会议上发表过相关研究成果,包括ACL、EMNLP和NeurIPS等。

相关研究:近期其他相关的研究包括:

  • "Compressive Transformer for Long-Range Sequence Modelling" by Yuhuai Wu, Mengye Ren, Renjie Liao, Raquel Urtasun, and Roger Grosse, from University of Toronto and Uber AI Labs, published in ICML 2020.
  • "Memory-Efficient Adaptive Computation Time for Language Modeling" by Jakob N. Foerster, Greg Farquhar, and Pushmeet Kohli, from University of Oxford and DeepMind, published in ICLR 2020.
  • "XLNet: Generalized Autoregressive Pretraining for Language Understanding" by Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, and Quoc V. Le, from Carnegie Mellon University, Google Research, and Stanford University, published in NeurIPS 2019.

论文摘要:我们提出了一种用于大型语言模型(LLM)中上下文压缩的“上下文自编码器”(ICAE)。ICAE具有两个模块:一个可学习的编码器,采用来自LLM的LoRA来将长上下文压缩为有限数量的存储槽,以及一个固定的解码器,即目标LLM,可以基于存储槽进行各种目的的条件编码。我们首先在大量文本数据上使用自编码和语言建模目标对ICAE进行预训练,使其能够生成准确和全面地表示原始上下文的存储槽。然后,我们在少量指导数据上对预训练的ICAE进行微调,以增强其与各种提示的交互,以产生理想的响应。我们的实验结果表明,使用我们提出的预训练和微调范式学习的ICAE可以有效地产生具有4倍上下文压缩的存储槽,目标LLM可以很好地对其进行条件编码以响应各种提示。这些有希望的结果展示了ICAE在长上下文问题上的新方法以及在实践中减少LLM推理的计算和内存开销的潜力,表明需要进一步研究LLM的上下文管理。我们的代码和数据将很快发布。

内容中包含的图片若涉及版权问题,请及时与我们联系删除