在写作和谈话时,人们有时会停顿思考。尽管以推理为重点的作品经常将推理框架化为回答问题或完成机构任务的方法,但推理几乎隐含在所有书面文本中。例如,在证明中未明确说明的步骤或在对话中潜在的心理理论都适用于此。在《自学推理者》(Self-Taught Reasoner,STaR,Zelikman等人,2022)中,通过从少量问答示例中推断出理由并学习那些导致正确答案的理由,有用的思考得到了学习。这是一个高度受限的设置——理想情况下,语言模型可以学会推断任意文本中未明示的理由。我们提出了Quiet-STaR,它是STaR的推广,其中语言模型学习在每个标记处生成理由,以解释未来的文本,从而提高其预测能力。我们解决了关键的挑战,包括1)生成延续的计算成本,2)LM最初不知道如何生成或使用内部思想,以及3)需要预测超出单个下一个标记。为了解决这些问题,我们提出了一种标记并行抽样算法,使用可学习的标记指示思想的起点和终点,以及扩展的教师强制技术。令人鼓舞的是,生成的理由不成比例地帮助模型预测困难的标记,并提高了LM直接回答困难问题的能力。特别是,在将LM持续预训练于互联网文本语料库中使用Quiet-STaR之后,我们发现在GSM8K(5.9%→10.9%)和CommonsenseQA(36.3%→47.2%)上出现零-shot改进,并观察到自然文本中困难标记的困惑度改进。关键是,这些改进不需要在这些任务上进行微调。Quiet-STaR标志着迈向能够以更一般和可扩展的方式学习推理的LM的一步。
提问交流