- 简介现有的用于解决诸如机器学习工程等任务的智能体主要依赖于对强大的语言模型进行提示(prompting)来运作。因此,这些智能体并不会随着更多经验的积累而提升性能。本文表明,由较弱模型支持并通过强化学习(RL)不断改进的智能体,可以超越那些由更大但静态模型支持的智能体。我们在这一场景下发现了强化学习的两个主要挑战。 首先,某些动作可能需要不同长度的时间来完成(例如,执行不同解决方案的代码),这会导致异步的策略梯度更新,从而偏向于选择更快但次优的解决方案。为应对动作时长不一的问题,我们在一个分布式异步强化学习框架中提出了考虑动作时长的梯度更新方法,以增强对高成本但高回报动作的选择倾向。 其次,仅以测试集上的表现为奖励信号,所提供的反馈非常有限。一个几乎正确的程序与一个完全失败的程序会被同等对待。为解决这一问题,我们提出了环境插桩(environment instrumentation)技术,以提供部分奖励,从而区分那些接近正确的程序与在早期阶段就失败的程序(例如,在数据加载期间失败的程序)。环境插桩技术利用一个独立的静态语言模型,在现有程序中插入打印语句,以记录智能体的实验进展,并从中提取部分奖励信号用于学习。 我们在 MLEBench 上的实验结果表明,在一个更小的模型(Qwen2.5-3B)上进行强化学习训练并执行梯度更新,其表现优于使用更大模型(Claude-3.5-Sonnet)并结合智能体框架进行提示的方法,在12个 Kaggle 任务上的平均性能高出22%。
-
- 图表
- 解决问题论文试图解决当前基于大语言模型的机器学习工程代理(agent)无法通过经验持续改进的问题。尽管这些代理利用强大的语言模型进行提示(prompting)可以生成高质量的解决方案,但由于模型本身不通过经验学习,因此缺乏长期适应性和优化能力。这是一个相对较新的问题,尤其是在代理系统如何通过强化学习(RL)实现自我提升方面。
- 关键思路论文提出使用一个较小的语言模型作为代理核心,并通过强化学习进行训练,使其能够随着经验积累不断优化自身行为。关键创新在于:1)设计了一种考虑动作执行时间的duration-aware梯度更新机制,以避免传统异步RL中偏好快速但次优策略的问题;2)通过环境插桩(environment instrumentation)引入部分奖励信号,从而更细致地指导代理学习过程,而不仅仅依赖最终测试性能作为奖励。
- 其它亮点1. 提出了一种新颖的异步RL框架,能够处理不同动作持续时间对策略更新的影响 2. 通过引入一个静态语言模型来插桩程序、记录中间执行信息,从而构建细粒度奖励机制 3. 在MLEBench数据集上的实验表明,使用Qwen2.5-3B进行RL训练的小型代理优于使用Claude-3.5-Sonnet的大模型提示方法,平均提升达22% 4. 实验覆盖12个Kaggle任务,验证了方法的广泛适用性
- 1. Reinforcement Learning with Asynchronous Updates for Efficient Training (2024) 2. Program Feedback via Instrumentation: Towards Better Supervised Fine-tuning for Code Generation (2023) 3. Language Models as Zero-Shot Program Analyzers (2024) 4. AgentScaffolds: Prompt Engineering for Building Effective ML Engineering Agents (2024) 5. Fine-tuning Smaller Language Models for Autonomous Agent Tasks (2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流