- 简介在许多任务领域中,进步往往源于对先前解决方案尝试的不断修订。训练能够在推理过程中对这种修订序列进行可靠自我改进的智能体,是强化学习(RL)的一个自然目标。然而,简单的方法通常假设固定的、最大的迭代次数,这种方式既可能代价高昂,又可能显得武断。我们提出了探索性迭代(ExIt),这是一种自课程强化学习方法家族,它直接利用自我改进任务的循环结构,训练大语言模型(LLMs)在推理过程中执行多步骤的自我改进,同时仅基于训练过程中最具信息量的单步迭代数据进行学习。ExIt通过在一次任务过程中有选择地采样遇到的最具信息量的中间、部分历史记录,将其继续迭代,并将这些起点视为新的自我迭代任务实例,以训练自我改进策略。ExIt还可以结合显式的探索机制,以维持更高的任务多样性。在多个领域中(包括竞赛数学、多轮工具使用和机器学习工程),我们展示了ExIt策略能够从单个或多个任务实例出发,训练出在推理过程中展现出强大自我改进能力的策略,并具备在超出训练过程中所见平均迭代深度的步骤预算内持续迭代、提升性能的能力。
- 图表
- 解决问题论文试图解决如何训练人工智能代理(如大语言模型)在推理时通过多次迭代自我改进的问题。当前的方法通常假设固定的迭代深度,这可能既昂贵又武断。这个问题在强化学习和自迭代任务中是一个重要的挑战,尤其在需要多步骤改进的复杂任务中。
- 关键思路论文提出了一种名为Exploratory Iteration(ExIt)的方法,利用自改进任务的递归结构,训练模型在推理时进行多步自我改进,而仅在训练时使用最具信息量的单步迭代。ExIt通过选择性地采样任务空间中的中间历史片段作为新的训练任务,从而动态扩展任务空间。这种方法不同于传统方法,它不需要预设最大迭代深度,并能有效提升模型在未知任务上的持续改进能力。
- 其它亮点1. ExIt在多个领域(如竞赛数学、多轮工具使用、机器学习工程)中展示了从单一或多个初始任务出发,训练出的策略在推理时能持续自我改进。 2. 实验表明,模型能够在超出训练时平均迭代深度的步数内持续提升性能。 3. 方法可与显式探索机制结合,维持任务多样性。 4. 该方法为训练具有推理时自迭代能力的LLMs提供了一个新的框架,值得在更多复杂任务中进一步研究。
- 1. AlphaGo和AlphaZero中基于自我对弈的策略改进 2. Program of Self-Improvement(PoSI)相关研究 3. Meta-World: A Benchmark for Meta-Reinforcement Learning 4. Self-Imitation Learning in Reinforcement Learning 5. Reinforcement Learning with a Terminator for Temporal Abstraction
沙发等你来抢
去评论
评论
沙发等你来抢