真·自我反思Agent！UMD提出AI训练新范式

训练大语言模型（LLM）作为自主 Agent 时，通常始于模仿学习（IL），即模型通过监督微调来复现专家演示中的行动。

这种方法虽然有效，却存在一个根本局限：Agent 从未将成功行动与失败选项进行对比，因而缺乏对行动质量的真正理解。

为打破这一瓶颈，马里兰大学研究团队提出了一种全新的训练范式“Agentic 批判性学习”（Agentic Critical Training，ACT），不再让模型死记硬背，而是通过强化学习（RL）让模型学会自主判断动作优劣，从而让 Agent 真正拥有“自我反思”的能力。

1.核心思想

ACT 的核心是将训练目标从“模仿专家动作”转变为“判断哪个动作更好”。

对于专家轨迹中的每一个状态，团队让模型自行生成一些候选动作，并将每个候选动作与专家动作配对，形成对比样本。然后，模型需要面对当前状态和两个候选动作，选出更优的那个。

团队采用强化学习来优化这个判断过程，唯一的奖励信号是“选择是否正确”。模型必须自己发展出推理链条，才能持续获得奖励。这样产生的“自我反思”是模型自主习得的，而非模仿固定文本。

2.训练流程

ACT 的完整训练分为三步：

[让我看看]数据构建：通过将专家动作与模型生成的替代方案配对，构建对比训练样本。
[加油]批判性训练：在构造好的对比数据集上，用 GRPO 训练模型判别两个候选动作的优劣。
[鼓掌]行动生成训练：在专家轨迹上继续用 GRPO 训练模型直接生成动作。

整个过程中，奖励函数综合了准确性、动作合法性和格式正确性，既鼓励精确匹配专家动作，也为合法但非最优的动作提供部分奖励。

3.实验效果

团队在 ALFWorld、WebShop、ScienceWorld 三个 Agent 基准上评估了 ACT。结果显示：

1️⃣ 在 IL 或 RL 之前加入 ACT，都能显著提升最终性能；IL w/ ACT 相比纯 IL 平均提高 5.07%，RL w/ ACT 相比纯 RL 平均提高 4.62%。
2️⃣ ACT 优于同样利用反思数据的“早期经验”方法，平均高 2.42%。
3️⃣ ACT 增强的模型在分布外任务上提升更大，说明它习得的是推理能力而非简单记忆。

令人意外的是，仅在 Agent 数据上训练 ACT 的模型，在通用推理基准 MATH-500 和 GPQA-Diamond 上也取得了比原始模型更好的成绩，而 IL 训练却导致推理能力大幅下降。

ACT 通过 RL 驱动模型自主发展对行动质量的判断力，使 Agent 真正学会批判性思考。这种方法为训练更强大、更鲁棒的 LLM Agent 提供了新思路。

更多细节，请查看原论文。
整理：王跃然

内容中包含的图片若涉及版权问题，请及时与我们联系删除

真·自我反思Agent！UMD提出AI训练新范式

评论列表

评论