Accelerating Training Speed of Tiny Recursive Models with Curriculum Guided Adaptive Recursion

2025年11月11日
  • 简介
    背景:递归推理模型通过迭代优化实现了优异的性能,使小型网络能够媲美大型语言模型。然而,其训练过程计算成本高昂,例如在Sudoku Extreme任务上通常需要36个GPU小时。现有模型采用固定的递归深度和统一的监督权重分配,导致训练效率低下。目标:我们提出了CGAR(课程引导的自适应递归)方法,将课程学习思想应用于模型架构深度的设计。CGAR引入了“渐进式深度课程”(PDC),用于动态调整递归深度;同时提出“分层监督加权”(HSW),对各步监督信号赋予指数衰减的重要性权重。方法:PDC采用三阶段调度策略,从浅层配置(2, 1)逐步过渡到全深度配置(6, 3),实现41.4%的浮点运算量(FLOPs)降低。HSW对监督步骤应用指数衰减权重,减少40%的梯度方差,并加快收敛速度。结果:在Sudoku-Extreme数据集上,CGAR实现了1.71倍的训练加速(训练时间从10.93小时缩短至6.38小时),准确率仅下降0.63个百分点(从86.65%降至86.02%)。仅使用PDC即可实现2.26倍加速,准确率达到85.47%,在效率与性能之间展现出帕累托改进优势。HSW单独带来1.61倍的训练加速。经CGAR训练的模型还表现出更优的推理效率,达到100%的停机准确率,并减少了11%的推理步骤。结论:CGAR使得在普通硬件条件下高效训练递归模型成为可能。通过将递归深度视为可调度的参数,该方法大幅降低了资源消耗并有效防止过拟合,从而让这类模型在神经符号AI和程序合成等实际应用场景中更具可行性。项目代码和模型开源地址:https://github.com/Kaleemullahqasim/CGAR 及 huggingface.co/Kaleemullah/trm-cgar-sudoku。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决递归推理模型训练过程中计算成本过高的问题。现有方法通常采用固定递归深度和均匀监督权重,导致训练效率低下,例如在Sudoku-Extreme任务上需要长达36 GPU小时。该问题在当前神经符号系统与程序合成背景下尤为重要,虽非全新问题,但针对递归架构的动态深度调度与监督优化仍缺乏有效探索。
  • 关键思路
    提出CGAR(Curriculum-Guided Adaptive Recursion),将课程学习引入递归深度控制。核心包括两部分:一是渐进式深度课程(PDC),在训练初期使用浅层递归,逐步过渡到深层;二是分层监督加权(HSW),对早期推理步骤赋予更高监督权重,通过指数衰减机制降低后期步骤的影响。这种将递归深度作为可调度参数的思路,在架构层面实现了训练效率与模型性能的更好平衡,相比以往静态设计具有明显新颖性。
  • 其它亮点
    实验设计清晰,在Sudoku-Extreme数据集上验证了方法有效性。结果表明CGAR实现1.71倍训练加速(从10.93小时降至6.38小时),仅损失0.63%准确率;PDC单独贡献达2.26倍加速,展现帕累托优势。模型推理时具备更优的停止准确性(100%)和减少11%推理步数。代码已开源(https://github.com/Kaleemullahqasim/CGAR),模型发布于Hugging Face(Kaleemullah/trm-cgar-sudoku),具备良好复现基础。未来可探索CGAR在其他符号推理任务(如定理证明、程序修复)中的泛化能力。
  • 相关研究
    1. Recursive Reasoning Networks with Dynamic Computation Graphs (ICML 2022) 2. Program Synthesis with Neuro-Symbolic Transformers (NeurIPS 2023) 3. Curriculum Learning for Deep Reinforcement Reasoning (ICLR 2023) 4. Adaptive Inference in Neural Models via Dynamic Depth Control (AAAI 2024) 5. Efficient Training of Recursive Transformers through Step-wise Optimization (ACL 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问