Temporal Sampling for Forgotten Reasoning in LLMs

简介

微调大型语言模型（LLMs）的目的是提升其推理能力，但我们发现了一个反直觉的现象：模型往往会忘记如何解决它们在训练过程中曾经正确回答的问题。我们将这种现象称为时间遗忘，并证明它广泛存在于不同规模的模型、微调方法（包括强化学习和监督微调）以及多个推理基准测试中。为了解决这一问题，我们提出了时间采样（Temporal Sampling），这是一种简单的解码策略，它从训练轨迹中的多个检查点抽取输出。这种方法无需重新训练或集成模型即可恢复被遗忘的解决方案，并显著提升推理性能，在多个基准测试中，Pass@k 提升了 4 到 19 个点，Majority@k 也表现出一致的改进。我们进一步将该方法扩展到 LoRA 适配的模型上，证明仅存储各检查点的适配器权重即可以极低的存储成本实现类似的收益。通过利用训练过程中固有的时间多样性，时间采样提供了一种实用且计算高效的手段，能够挖掘隐藏的推理能力，并促使我们重新思考如何评估大型语言模型。
图表
解决问题

论文试图解决大型语言模型（LLMs）在微调过程中出现的‘时间遗忘’问题，即模型在训练后期可能会忘记之前能够正确解答的问题。这是一个新发现的现象，涉及模型推理能力的变化。
关键思路

论文提出了一种名为‘Temporal Sampling’的简单解码策略，通过从训练过程中的多个检查点抽取输出，恢复被遗忘的解决方案。这种方法无需重新训练或集成多个模型，利用了训练轨迹中的时间多样性。此外，该方法可以扩展到LoRA适配模型，仅需存储适配器权重即可实现类似效果。
其它亮点

1. 提出了‘Temporal Forgetting’这一现象，并验证其广泛存在于不同规模模型和微调方法中；2. Temporal Sampling方法显著提升了Pass@k和Majority@k指标，在多个推理基准测试中表现优异；3. 对LoRA适配模型的应用展示了高效性和低存储成本；4. 论文提供了详细的实验设计，涵盖了多种推理任务和数据集，但未提及代码是否开源；5. 值得进一步研究如何结合Temporal Sampling与其他优化技术提升LLM性能。
相关研究

近期相关研究包括：1. ‘In-Context Learning and the Emergence of Reasoning in Large Language Models’探讨了LLMs推理能力的涌现特性；2. ‘Preventing Catastrophic Forgetting in Fine-Tuned LLMs’研究了防止灾难性遗忘的方法；3. ‘LoRA: Low-Rank Adaptation of Large Language Models’介绍了LoRA技术以降低微调成本；4. ‘Rethinking Evaluation Metrics for LLMs’提出了对LLM评估指标的新思考。这些工作与本文在理解LLM行为和优化微调策略方面密切相关。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论