Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

简介

在写作和谈话时，人们有时会停顿思考。尽管以推理为重点的作品经常将推理框架化为回答问题或完成机构任务的方法，但推理几乎隐含在所有书面文本中。例如，在证明中未明确说明的步骤或在对话中潜在的心理理论都适用于此。在《自学推理者》（Self-Taught Reasoner，STaR，Zelikman等人，2022）中，通过从少量问答示例中推断出理由并学习那些导致正确答案的理由，有用的思考得到了学习。这是一个高度受限的设置——理想情况下，语言模型可以学会推断任意文本中未明示的理由。我们提出了Quiet-STaR，它是STaR的推广，其中语言模型学习在每个标记处生成理由，以解释未来的文本，从而提高其预测能力。我们解决了关键的挑战，包括1）生成延续的计算成本，2）LM最初不知道如何生成或使用内部思想，以及3）需要预测超出单个下一个标记。为了解决这些问题，我们提出了一种标记并行抽样算法，使用可学习的标记指示思想的起点和终点，以及扩展的教师强制技术。令人鼓舞的是，生成的理由不成比例地帮助模型预测困难的标记，并提高了LM直接回答困难问题的能力。特别是，在将LM持续预训练于互联网文本语料库中使用Quiet-STaR之后，我们发现在GSM8K（5.9%→10.9%）和CommonsenseQA（36.3%→47.2%）上出现零-shot改进，并观察到自然文本中困难标记的困惑度改进。关键是，这些改进不需要在这些任务上进行微调。Quiet-STaR标志着迈向能够以更一般和可扩展的方式学习推理的LM的一步。
图表
解决问题

论文试图通过Quiet-STaR解决自然语言处理中的推理问题，即如何让语言模型推理出文本中未明确表达的逻辑关系和思考过程。
关键思路

Quiet-STaR是一种通用的语言模型，可以在每个标记处生成理由，以解释未来的文本，从而提高其预测能力。
其它亮点

论文提出了一种基于少量示例的推理学习方法，使用可学习的标记来指示思想的开始和结束，以及扩展的teacher-forcing技术，从而解决了生成推理的计算成本、模型不知如何生成或使用内部思想以及需要预测超出单个下一个标记的关键问题。实验结果表明，Quiet-STaR可以在不需要对任务进行微调的情况下，显著提高语言模型的预测能力，尤其是对于难以预测的标记。
相关研究

在这个领域中的相关研究包括基于少量示例的推理学习方法，如Self-Taught Reasoner (STaR)。

Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

评论