这种方法虽然有效,却存在一个根本局限:Agent 从未将成功行动与失败选项进行对比,因而缺乏对行动质量的真正理解。
为打破这一瓶颈,马里兰大学研究团队提出了一种全新的训练范式“Agentic 批判性学习”(Agentic Critical Training,ACT),不再让模型死记硬背,而是通过强化学习(RL)让模型学会自主判断动作优劣,从而让 Agent 真正拥有“自我反思”的能力。
1.核心思想
ACT 的核心是将训练目标从“模仿专家动作”转变为“判断哪个动作更好”。
对于专家轨迹中的每一个状态,团队让模型自行生成一些候选动作,并将每个候选动作与专家动作配对,形成对比样本。然后,模型需要面对当前状态和两个候选动作,选出更优的那个。
团队采用强化学习来优化这个判断过程,唯一的奖励信号是“选择是否正确”。模型必须自己发展出推理链条,才能持续获得奖励。这样产生的“自我反思”是模型自主习得的,而非模仿固定文本。
2.训练流程
ACT 的完整训练分为三步:
[让我看看]数据构建:通过将专家动作与模型生成的替代方案配对,构建对比训练样本。
[加油]批判性训练:在构造好的对比数据集上,用 GRPO 训练模型判别两个候选动作的优劣。
[鼓掌]行动生成训练:在专家轨迹上继续用 GRPO 训练模型直接生成动作。
整个过程中,奖励函数综合了准确性、动作合法性和格式正确性,既鼓励精确匹配专家动作,也为合法但非最优的动作提供部分奖励。
3.实验效果
团队在 ALFWorld、WebShop、ScienceWorld 三个 Agent 基准上评估了 ACT。结果显示:
1️⃣ 在 IL 或 RL 之前加入 ACT,都能显著提升最终性能;IL w/ ACT 相比纯 IL 平均提高 5.07%,RL w/ ACT 相比纯 RL 平均提高 4.62%。
2️⃣ ACT 优于同样利用反思数据的“早期经验”方法,平均高 2.42%。
3️⃣ ACT 增强的模型在分布外任务上提升更大,说明它习得的是推理能力而非简单记忆。
令人意外的是,仅在 Agent 数据上训练 ACT 的模型,在通用推理基准 MATH-500 和 GPQA-Diamond 上也取得了比原始模型更好的成绩,而 IL 训练却导致推理能力大幅下降。
ACT 通过 RL 驱动模型自主发展对行动质量的判断力,使 Agent 真正学会批判性思考。这种方法为训练更强大、更鲁棒的 LLM Agent 提供了新思路。
更多细节,请查看原论文。
整理:王跃然
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢