- 简介强化学习(RL)究竟是教会了大语言模型(LLM)真正的新技能,还是仅仅激活了其已有的能力?这个问题正是当前关于强化学习在大语言模型后训练中作用的争论核心。一方面,即使没有事先进行监督微调,仅靠强化学习也能取得显著的实证效果;另一方面,批评者认为,强化学习的作用可能仅限于对已有推理策略的重新加权。本研究通过具体证据表明,大语言模型能够在强化学习过程中,通过组合已有技能而获得真正意义上的新技能,这一过程类似于人类获取新认知能力的核心机制之一。为了排除数据污染及其他混杂因素的影响,并精确控制任务复杂度,我们构建了一个用于研究的合成框架。具体而言,我们将“技能”定义为:给定输入字符串x,推断出某个字符串变换函数f(x)输出结果的能力。当一个大语言模型在强化学习前已经掌握了函数f和g时,我们的实验发现,强化学习使其能够学会此前从未见过的函数组合,即h(x)=g(f(x))。此外,这种组合能力还能泛化到更复杂的任务上,例如在强化学习训练过程中未曾见过的、由两个以上函数组成的复合任务。令人意外的是,实验还显示,在源任务上习得的组合技能可以迁移到一个完全不同的目标任务上。这种迁移甚至无需在目标领域进行组合性训练,只需模型事先掌握目标任务中的基础原子技能即可。我们的定性分析进一步表明,强化学习从根本上改变了模型的推理行为;相比之下,使用相同数据进行的下一词预测训练却无法产生上述任何现象。这些系统性的实验为理解大语言模型的学习机制提供了新的洞见:应首先构建具备基本技能的基础模型,再利用强化学习激励其发展出适用于复杂问题的高级且可泛化的技能。
-
- 图表
- 解决问题论文试图解决的问题是:强化学习(RL)在大语言模型(LLM)后训练中的作用究竟是激活已有技能,还是能让模型真正掌握新的、组合性的认知技能。这个问题在当前关于LLM学习机制的讨论中具有核心地位,尽管已有大量经验性结果支持RL的有效性,但其本质影响仍存在争议。该问题并非全新,但通过合成框架进行因果性探究的方式较新。
- 关键思路论文的关键思路是构建一个可控的合成任务框架,将‘技能’定义为对字符串变换函数的推理能力,并验证LLM在已掌握基础函数f和g的前提下,能否通过RL学会其未见过的组合h(x)=g(f(x))。这一设计模仿了人类通过组合已有知识获得新技能的认知机制。相比以往研究多依赖自然语言任务和观察性数据,本文首次提供了RL能促使模型产生真正新颖、可泛化的组合技能的因果证据。
- 其它亮点亮点包括:1)设计了无数据污染的合成环境,精确控制任务复杂度;2)实验证明RL能促使模型掌握两层及以上未见函数组合,且该能力可跨任务迁移;3)定性分析显示RL改变了模型的推理行为,而传统的下一词预测训练无法实现这一点;4)实验对比严谨,使用相同数据下RL显著优于监督微调;5)代码与任务框架可能开源(文中未明确提及,但合成设置易于复现),值得进一步探索RL在结构化推理中的潜力。
- 1. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 2. Large Language Models as Optimizers 3. Reinforcement Learning from Human Feedback (RLHF): A Survey 4. Emergent Abilities of Large Language Models 5. Can Language Models Learn from Explanations?
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流