Online Adaptation of Language Models with a Memory of Amortized Contexts

简介

由于信息的快速生成和传播，即使花费巨大的开发成本，大型语言模型（LLM）也很快过时。由于这种关键的需求需要保持模型更新，当利用LLM进行实际应用时，在线学习已成为至关重要的必要条件。然而，考虑到不断扩大的未见文档语料库和现代LLM的大参数空间，高效的适应性至关重要。为了解决这些挑战，我们提出了记忆化摊销上下文（MAC），这是一种高效且有效的LLM在线适应框架，具有强大的知识保留能力。我们提出了一种摊销特征提取和记忆增强方法，将新文档中的信息压缩并提取到存储在内存库中的紧凑调制中。在回答问题时，我们的模型会关注并从这个内存库中提取相关的知识。为了以高效的方式学习信息丰富的调制，我们利用了基于摊销的元学习，用编码器的单个前向传递替代优化过程。随后，我们学习根据问题选择和聚合选定的文档到一个单一的调制中，使我们能够在测试时适应一个冻结的语言模型，而不需要进一步的梯度更新。我们的实验展示了MAC在多个方面的优越性，包括在线适应性能、时间和内存效率。代码可在以下网址找到：https://github.com/jihoontack/MAC。
图表
解决问题

论文旨在解决大型语言模型在实际应用中快速过时的问题，提出了一种在线学习的解决方案，即Memory of Amortized Contexts (MAC)。该方案能够高效地适应新文档，并保持强大的知识保留能力。
关键思路

MAC方案采用分摊特征提取和记忆增强方法，将新文档中的信息压缩提取成存储在记忆库中的紧凑调制。在回答问题时，模型从记忆库中提取相关知识。为了高效地学习有信息量的调制，论文采用了分摊式元学习，通过单次前向传递来替代优化过程。随后，通过对问题进行条件化，学习从所选文档中选择和聚合信息，从而能够在测试时适应冻结的语言模型而无需进一步的梯度更新。
其它亮点

论文的实验结果表明MAC在多个方面都优于其他方法，包括在线适应性能、时间效率和内存效率。论文提供了开源代码。
相关研究

在最近的相关研究中，有一些关于在线学习的方法被提出，如Continual Learning、Online Meta-Learning和Dynamic Evaluation。

Online Adaptation of Language Models with a Memory of Amortized Contexts

评论