AgentPulse: A Continuous Multi-Signal Framework for Evaluating AI Agents in Deployment

2026年04月27日
  • 简介
    静态基准测试仅能衡量人工智能代理在某一固定时间点所具备的能力,却无法反映其在实际部署过程中的采纳情况、维护状况及用户体验。为此,我们提出 AgentPulse——一种持续性评估框架,该框架从 GitHub、软件包注册中心、集成开发环境(IDE)应用市场、社交平台以及各类基准测试排行榜等五大数据源中,实时采集 18 类信号,并据此对 50 个 AI 代理在 10 类工作负载场景下的表现进行评分,涵盖四大维度:基准测试性能(Benchmark Performance)、采纳信号(Adoption Signals)、社区情绪(Community Sentiment)和生态健康度(Ecosystem Health)。 本框架的合理性通过三项实证分析予以支撑: 第一,上述四大维度所捕捉的信息总体上具有高度互补性(样本量 n = 50; Adoption 与 Ecosystem 维度间的最大斯皮尔曼相关系数 ρₘₐₓ = 0.61,其余所有维度两两之间的 |ρ| 均 ≤ 0.37); 第二,在控制循环性影响的前提下开展的验证测试(n = 35)表明,由“基准测试性能”与“社区情绪”构成的子综合指标(该指标未纳入任何源自 GitHub 的信号),能够显著预测其本身并未聚合的外部采纳代理指标:GitHub 星标数(ρₛ = 0.52,p < 0.01)与 Stack Overflow 上相关问题数量(ρₛ = 0.49,p < 0.01);此外,VS Code 安装量(ρₛ = 0.44,p < 0.05)亦作为示例性结果一并报告——需说明的是,该子集中仅有 11 个代理的 VS Code 安装量为非零值; 第三,在拥有公开 SWE-bench 得分的 11 个代理构成的子集(n = 11)中,整体综合排名与仅基于基准测试得分的排名几乎不相关(ρₛ = 0.25),且其中 9 个代理在两类排名中的位次变动至少达 2 名;这一现象主要源于该子集中闭源、高能力代理普遍存在“采纳度”与“能力水平”之间的强负相关关系。正因如此,我们选择将框架有效性的论证基础建立在更广泛、更具代表性的 n = 35 样本测试之上,而非局限于与 SWE-bench 重叠的这 11 个代理。 AgentPulse 的核心价值在于揭示了现有基准测试所遗漏的关键部署信号;它本质上是一种评估方法论,而非提供某种绝对权威的“真实排名”。本框架本身、全部采集的原始信号、各项评分结果以及配套的评估工具套件,均已依据知识共享署名 4.0 国际许可协议(CC BY 4.0)开源发布。
  • 作者讲解
  • 图表
  • 解决问题
    静态基准测试(如SWE-bench)仅反映AI代理在固定时刻的能力上限,却无法刻画其真实世界部署中的采用率、维护活力、开发者体验与生态可持续性;论文旨在填补‘能力’与‘落地’之间的评估鸿沟,验证‘多维连续信号能否协同预测实际采用’这一假设——这是一个尚未被系统建模的新问题。
  • 关键思路
    提出AgentPulse:首个将实时、异构、非能力类信号(GitHub活动、包下载量、IDE插件安装、社区情绪、论坛讨论等)结构化为四大互补维度(Benchmark Performance, Adoption Signals, Community Sentiment, Ecosystem Health)的持续评估框架;关键新意在于放弃‘能力即一切’范式,通过信号解耦与环路控制实验(如剔除GitHub信号后仍能预测GitHub stars),证明非能力指标具有独立预测力。
  • 其它亮点
    • 三重实证设计:(1) 因子正交性检验(ρ_max=0.61,其余|ρ|≤0.37);(2) 圆形性控制预测测试(n=35,Benchmark+Sentiment子组合显著预测GitHub stars/Stack Overflow提问量/VS Code installs);(3) SWE-bench子集反直觉发现(n=11,能力高但闭源代理反而采用率低,ρ_s=0.25)。• 覆盖50个主流AI代理、10类工作负载、18个实时数据源(GitHub、PyPI/NPM、VS Code Marketplace、Twitter/X、Hugging Face、Leaderboards等)。• 全栈开源:框架代码、原始信号、评分结果、评估工具链全部CC BY 4.0发布。
  • 相关研究
    • 'Holistic Evaluation of Language Models' (Liu et al., NeurIPS 2023) —— 提出多维评估理念但无实时信号整合;• 'Model Cards for Model Reporting' (Mitchell et al., FAT* 2019) —— 侧重静态透明度而非动态生态;• 'The State of AI Agent Benchmarks' (Wang et al., arXiv:2402.13570) —— 批判基准局限性但未提供替代方案;• 'GitHub as a Proxy for Software Adoption' (Zhou et al., MSR 2021) —— 单一平台信号研究,未与能力指标解耦。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问