Deliberation in Latent Space via Differentiable Cache Augmentation

简介

使大型语言模型（LLM）通过生成和关注中间推理步骤从而“更多地思考”的技术，在解决复杂问题方面展现出了潜力。然而，标准方法是在响应之前立即生成一系列离散的标记，因此可能会产生显著的延迟成本，并且优化起来颇具挑战性。在这项工作中，我们展示了可以通过添加一个离线协处理器来增强冻结的大型语言模型，该协处理器作用于模型的关键值（kv）缓存。这个协处理器通过一组潜在嵌入来增强缓存，旨在提高后续解码的保真度。我们使用解码器在标准预训练数据上的语言建模损失来训练这个协处理器，同时保持解码器本身不变。这种方法使得模型能够以端到端可微分的方式学习如何将额外的计算提炼到其kv缓存中。由于解码器保持不变，协处理器可以离线和异步运行，并且如果协处理器不可用或某个缓存被认为不需要额外计算时，语言模型仍能正常工作。实验表明，当缓存被增强后，解码器在许多后续标记上实现了更低的困惑度。此外，即使没有任何特定任务的训练，我们的实验也证明了缓存增强一致地降低了困惑度并提高了各种需要推理的任务的性能。
图表
解决问题

论文试图解决大型语言模型（LLMs）在生成复杂推理任务时面临的延迟和优化难题。当前的LLMs在生成序列时，需要立即生成离散的标记，这导致了显著的延迟，并且难以优化。此外，现有的方法通常需要对模型进行大量的调整或重新训练。
关键思路

关键思路是通过引入一个离线协处理器来增强已冻结的LLM的键值（kv）缓存。这个协处理器利用标准预训练数据的语言建模损失进行训练，同时保持解码器不变。这种方法使得模型能够在端到端可微分的方式下学习如何将额外的计算提炼到其kv缓存中，从而在不改变解码器的情况下提高后续解码的保真度。这种创新允许协处理器异步工作，并且在不需要额外计算时可以正常运行。
其它亮点

实验表明，当缓存被增强后，解码器在多个后续标记上实现了更低的困惑度。即使没有特定任务的训练，缓存增强也一致地降低了困惑度并提高了各种推理密集型任务的性能。这项研究展示了在不修改原始模型结构的前提下，通过改进缓存机制提升模型性能的可能性。目前尚不清楚是否有开源代码发布，但该研究为未来的工作提供了明确的方向，例如探索不同类型的嵌入、更复杂的缓存增强策略等。
相关研究

最近在这个领域中，还有其他相关研究，如《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》探讨了通过链式思维提示来激发LLMs中的推理能力；《Self-Consistency Improves Chain of Thought Reasoning in Language Models》研究了自一致性对链式思维推理的改进；以及《Toolformer: Learning to Use Tools with Large Pretrained Models》则关注于如何让大规模预训练模型学会使用工具。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论