Systematic debugging for AI agents: Introducing the AgentRx framework

AI代理调试困难，因其执行轨迹长、随机性强且常涉及多代理协作，导致根本原因难以定位。为此，研究者提出AgentRx框架，通过从工具模式和领域策略中自动生成可执行的守卫约束，逐步记录有证据支持的违规步骤，精准识别首个不可恢复的“关键失败”节点。团队发布包含115条人工标注失败轨迹的AgentRx Benchmark数据集，覆盖τ-bench、Flash与Magentic-One，并构建了基于实际场景的九类故障分类体系。实验表明，AgentRx相较提示工程基线，在故障定位准确率和根因归因准确率上分别提升23.6%和22.9%。框架与数据集已开源。

本专栏通过快照技术转载，仅保留核心内容