Trust-Region Adaptive Policy Optimization

2025年12月19日
  • 简介
    后训练方法,尤其是监督微调(SFT)与强化学习(RL),在提升大语言模型(LLM)复杂推理能力方面发挥着关键作用。然而,目前主流的两阶段流程(先SFT后RL)存在一个关键缺陷:SFT强制进行严格的模仿学习,抑制了探索能力,并导致知识遗忘,从而限制了RL进一步优化的潜力。为解决这一低效问题,我们提出了TRAPO(信任区域自适应策略优化)框架——一种混合方法,在每个训练实例中交替执行SFT与RL:在专家生成的前缀部分优化SFT损失,在模型自身生成的续写部分优化RL损失,从而将外部监督与自我探索有机统一起来。为了稳定训练过程,我们引入了“信任区域SFT”(TrSFT),该方法在信任区域内最小化前向KL散度,而在区域外减弱优化强度,从而有效向反向KL散度过渡,产生有利于强化学习的稳定且具有模式聚焦特性的参数更新。此外,自适应前缀选择机制根据实际效用动态分配专家指导资源。在五个数学推理基准上的实验表明,TRAPO持续优于标准的SFT、RL以及SFT-后-RL流程,同时超越了近期最先进的方法,确立了一种增强语言模型推理能力的强有力新范式。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决大型语言模型(LLM)在复杂推理任务中,传统两阶段训练流程(先监督微调SFT,再强化学习RL)存在的不一致性问题:SFT阶段强制模仿导致探索能力受限,并引发知识遗忘,从而限制了RL阶段的进一步提升。这一问题在当前推理增强的LLM训练中日益突出,虽有部分研究关注SFT与RL的协同,但尚未系统解决训练动态冲突,具有较强的新颖性和现实需求。
  • 关键思路
    提出TRAPO(Trust-Region Adaptive Policy Optimization),一种将SFT与RL交错融合的新型训练框架。其核心在于每个训练实例中,对专家生成的前缀部分执行SFT损失,而对模型自身生成的续写部分应用RL损失,实现外部监督与自我探索的统一。同时引入TrSFT(Trust-Region SFT),通过在信任区域内最小化前向KL散度、区域外衰减优化,使更新更稳定且倾向于模式捕捉,有利于后续RL优化。此外设计自适应前缀选择机制,动态分配专家指导强度。相比传统分阶段流程,TRAPO实现了训练过程的动态平衡与互补,是SFT与RL融合范式的创新。
  • 其它亮点
    在五个数学推理基准(如GSM8K、MATH等)上全面超越标准SFT、RL及SFT-then-RL流程,并优于近期SOTA方法。实验设计严谨,包含消融研究验证各组件贡献。论文强调了训练稳定性与推理性能的双重提升。目前未明确提及代码是否开源,但其提出的TrSFT与自适应机制为后续研究提供了清晰的技术路径,值得在更多任务和模型规模上深入探索。
  • 相关研究
    1. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 2. Self-Taught Reasoner (STaR): Bootstrapping Reasoning with Reasoning 3. Direct Preference Optimization: Your Language Model is Secretly a Reward Model 4. Reinforced Self-Training (ReST) for Language Modeling 5. OPTIMUS: A Unified Framework for Fine-tuning and Reinforcement Learning of Language Models
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问