Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

2024年03月14日
  • 简介
    在写作和交谈时,人们有时会停下来思考。虽然以推理为重点的作品经常将推理框架化为回答问题或完成代理任务的方法,但推理几乎隐含在所有的书面文本中。例如,这适用于证明中未在行间列出的步骤,或者在对话中潜在的心理理论。在Self-Taught Reasoner (STaR, Zelikman等人,2022)中,通过从少量的问题回答示例中推断理由并学习那些导致正确答案的理由,有用的思考被学习。这是一个高度受限的设置--理想情况下,语言模型可以学习推断任意文本中未明示的理由。我们提出了Quiet-STaR,这是STaR的推广,其中语言模型学习在每个标记处生成理由来解释未来文本,从而改善其预测。我们解决了关键的挑战,包括1)生成继续的计算成本,2)LM最初不知道如何生成或使用内部思想,以及3)需要预测超出单个下一个标记。为了解决这些问题,我们提出了一种标记并行采样算法,使用可学习的标记来指示思想的开始和结束,以及一个扩展的教师强制技术。令人鼓舞的是,生成的理由不成比例地帮助模型预测困难的标记,并提高了LM直接回答困难问题的能力。特别是,在将LM持续预训练在互联网文本语料库上的情况下,使用Quiet-STaR在GSM8K(5.9%→10.9%)和CommonsenseQA(36.3%→47.2%)上发现零-shot改进,并观察到自然文本中困难标记的困惑度改进。关键是,这些改进不需要对这些任务进行微调。Quiet-STaR标志着LM能够以更一般和可扩展的方式学习推理的一步。
  • 图表
  • 解决问题
    论文试图解决如何让语言模型在任意文本中推断隐含的推理过程,以提高其预测能力的问题。
  • 关键思路
    Quiet-STaR是一种通用的语言模型,可以在每个标记处生成理由,以解释未来的文本,并改进其预测。
  • 其它亮点
    论文提出了一种基于STaR的新型通用语言模型Quiet-STaR,使用可学习的标记来指示思想的开始和结束,以及扩展的教师强制技术。经过预训练后,Quiet-STaR在GSM8K和CommonsenseQA数据集上实现了零样本提升,并在自然文本中提高了困难标记的困惑度。这些改进不需要在这些任务上进行微调。Quiet-STaR标志着向可以更加通用和可扩展地学习推理的语言模型迈出了一步。
  • 相关研究
    最近的相关研究包括:1. Few-Shot Learning for Reasoning with Natural Language and Numerical Expressions(Liu et al. 2021);2. Learning to Reason with Third-Order Tensor Products(Rocktäschel et al. 2017);3. Neural Reasoner: A Deep Learning-Based Approach for Story-Based Reasoning(Kumar et al. 2016)
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论