Bootstrapping Task Spaces for Self-Improvement

简介

在许多任务领域中，进步往往源于对先前解决方案尝试的不断修订。训练能够在推理过程中对这种修订序列进行可靠自我改进的智能体，是强化学习（RL）的一个自然目标。然而，简单的方法通常假设固定的、最大的迭代次数，这种方式既可能代价高昂，又可能显得武断。我们提出了探索性迭代（ExIt），这是一种自课程强化学习方法家族，它直接利用自我改进任务的循环结构，训练大语言模型（LLMs）在推理过程中执行多步骤的自我改进，同时仅基于训练过程中最具信息量的单步迭代数据进行学习。ExIt通过在一次任务过程中有选择地采样遇到的最具信息量的中间、部分历史记录，将其继续迭代，并将这些起点视为新的自我迭代任务实例，以训练自我改进策略。ExIt还可以结合显式的探索机制，以维持更高的任务多样性。在多个领域中（包括竞赛数学、多轮工具使用和机器学习工程），我们展示了ExIt策略能够从单个或多个任务实例出发，训练出在推理过程中展现出强大自我改进能力的策略，并具备在超出训练过程中所见平均迭代深度的步骤预算内持续迭代、提升性能的能力。
图表
解决问题

论文试图解决如何训练人工智能代理（如大语言模型）在推理时通过多次迭代自我改进的问题。当前的方法通常假设固定的迭代深度，这可能既昂贵又武断。这个问题在强化学习和自迭代任务中是一个重要的挑战，尤其在需要多步骤改进的复杂任务中。
关键思路

论文提出了一种名为Exploratory Iteration（ExIt）的方法，利用自改进任务的递归结构，训练模型在推理时进行多步自我改进，而仅在训练时使用最具信息量的单步迭代。ExIt通过选择性地采样任务空间中的中间历史片段作为新的训练任务，从而动态扩展任务空间。这种方法不同于传统方法，它不需要预设最大迭代深度，并能有效提升模型在未知任务上的持续改进能力。
其它亮点

1. ExIt在多个领域（如竞赛数学、多轮工具使用、机器学习工程）中展示了从单一或多个初始任务出发，训练出的策略在推理时能持续自我改进。 2. 实验表明，模型能够在超出训练时平均迭代深度的步数内持续提升性能。 3. 方法可与显式探索机制结合，维持任务多样性。 4. 该方法为训练具有推理时自迭代能力的LLMs提供了一个新的框架，值得在更多复杂任务中进一步研究。
相关研究

1. AlphaGo和AlphaZero中基于自我对弈的策略改进 2. Program of Self-Improvement（PoSI）相关研究 3. Meta-World: A Benchmark for Meta-Reinforcement Learning 4. Self-Imitation Learning in Reinforcement Learning 5. Reinforcement Learning with a Terminator for Temporal Abstraction

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论