AI代理调试困难,因其执行轨迹长、随机性强且常涉及多代理协作,导致根本原因难以定位。为此,研究者提出AgentRx框架,通过从工具模式和领域策略中自动生成可执行的守卫约束,逐步记录有证据支持的违规步骤,精准识别首个不可恢复的“关键失败”节点。团队发布包含115条人工标注失败轨迹的AgentRx Benchmark数据集,覆盖τ-bench、Flash与Magentic-One,并构建了基于实际场景的九类故障分类体系。实验表明,AgentRx相较提示工程基线,在故障定位准确率和根因归因准确率上分别提升23.6%和22.9%。框架与数据集已开源。

本专栏通过快照技术转载,仅保留核心内容

内容中包含的图片若涉及版权问题,请及时与我们联系删除