From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step

简介

本文研究了当使用语言模型进行推理任务时，生成明确的思路链（CoT）步骤常常是实现最终输出高准确性的关键。为此，我们探讨了是否可以教会模型内化这些CoT步骤。为此，我们提出了一种简单而有效的内化CoT步骤的方法：从一个经过明确的CoT推理训练的模型开始，逐步删除中间步骤并进行微调。这个过程使得模型能够内化中间的推理步骤，从而简化推理过程同时保持高性能。我们的方法使得一个GPT-2 Small模型能够以高达99%的准确率解决9×9乘法问题，而标准训练无法解决超过4×4的乘法问题。此外，我们的方法在更大的语言模型上也证明是有效的，例如Mistral 7B，在不产生任何中间步骤的情况下，在GSM8K上实现了超过50%的准确率。
图表
解决问题

论文试图让语言模型内化推理过程中的中间步骤，从而简化推理过程并提高准确性，特别是在解决乘法问题方面。
关键思路

通过从训练好的具有明确的推理步骤的模型中逐步删除中间步骤并微调模型，使模型内化中间推理步骤，从而简化推理过程，同时保持高性能。
其它亮点

该方法使得GPT-2 Small模型可以以高达99%的准确率解决9乘9的乘法，而标准训练则无法解决超过4乘4的乘法。此外，该方法在更大的语言模型（如Mistral 7B）上也非常有效，在不产生任何中间步骤的情况下，在GSM8K上达到50%以上的准确率。
相关研究

最近在这个领域中，也有一些关于语言模型内化推理步骤的研究，例如《Learning to perform Arithmetic in a Day》和《Inferring Algorithmic Patterns with Stack-Augmented Recurrent Nets》。

From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step

评论