- 简介大型语言模型(LLMs)可以在推理过程中花费额外的计算资源来生成中间思路,从而有助于产生更好的最终响应。自从《思维链》(Wei等人,2022)之后,出现了许多类似的第二系统技术,如“改述和回应”(Deng等人,2023a)、“第二系统注意力”(Weston和Sukhbaatar,2023)和“分支-求解-合并”(Saha等人,2023)。在本研究中,我们研究了自监督方法,将System 2技术的高质量输出“编译”(蒸馏)回LLM生成,而不需要中间推理令牌序列,因为这种推理已经被蒸馏到System 1中。我们展示了几种这样的技术可以成功蒸馏,与原始的System 1性能相比,结果有所提高,并且比System 2的推理成本更低。我们认为,这种System 2蒸馏将是未来不断学习的AI系统的重要特征,使它们能够将System 2能力集中在它们尚不能很好完成的推理任务上。
- 图表
- 解决问题本文旨在探讨如何通过自监督方法将系统2技术中的高质量输出进行压缩(蒸馏)以提高系统1的性能,从而减少推理成本。
- 关键思路本文提出了一种新的方法,通过将系统2技术中的高质量输出进行压缩(蒸馏)以提高系统1的性能。这种方法可以减少推理成本,并且相较于当前领域的研究具有新意。
- 其它亮点本文通过实验验证了所提出的方法的有效性,并与当前领域的研究进行了比较。实验使用了多个数据集,并且开源了代码。本文的方法可以为未来不断学习的AI系统提供重要的功能,从而使它们能够将系统2能力集中在尚不能很好完成的推理任务上。
- 最近在这个领域中,还有一些相关的研究,如Chain-of-Thought、Rephrase and Respond、System 2 Attention和Branch-Solve-Merge等。
沙发等你来抢
去评论
评论
沙发等你来抢