智源TALK｜智能体代码能力评测迈入新阶段，首个可Scaling！FeatureBench打造Agentic Coding评测新框架

报告主题：首个可Scaling！FeatureBench打造Agentic Coding评测新框架

报告日期：04月08日（周三） 10:30-11:30

报告要点：

一、活动概要

2026年4月8日，智源社区邀请西安交通大学张家铖围绕《首个可Scaling！FeatureBench 打造 Agentic Coding 评测新框架》主题开展智源TALK活动。活动现场分享“FeatureBench: Benchmarking Agentic Coding for Complex Feature Development”学术论文。

二、研究背景

大模型赋能下，Agentic Coding 成为新一代代码开发范式，而现有评测基准的任务设计、场景适配性已难以匹配真实开发需求。本期报告提出了全新的 FeatureBench 评测框架，立足实际开发场景打造高质量评测基准，同时搭建起全流程开源的技术基础设施，既为当下 Code Agent 的能力评估提供了科学标准，也为后续相关模型的训练与优化筑牢了数据基础。

三、内容介绍

随着大模型Coding能力的增强，当下的开发范式已经变为了人提需求，Agent 动手的模式。但主流代码评测基准如 SWE-bench 仍侧重于平均仅约 30 行的代码修补，且存在任务描述模糊、区分度逐渐饱和等问题，已与当前的真实使用场景存在较大差距。为此，我们推出了 FeatureBench，这是一个源于真实世界仓库、基于测试驱动的可scaling的高质量 Code 能力评测基准。FeatureBench任务平均涉及 790.2 行代码修改，并配有规范的接口签名以消除歧义，更加符合当下真实开发场景。我们已完整开源了从数据生成到推理评测的全套基础设施，原生适配OpenHands 和 Claude Code 等主流 Agent 框架。FeatureBench 不仅一个是满足当下开发范式的评测基准，其自动化环境生产管线还将为后续Code Agent训练提供数据支持。

报告嘉宾：

张家铖，西安交通大学钱学森班大四年级本科生，目前于华为小艺业务部门实习。他的研究方向聚焦 Code Agent 评测及训练。其工作 FeatureBench 提出了一种自动化抽取代码仓 feature 的方法，打破了SWE-bench 为代表的 PR-driven 自动提取评测任务的方法，将 Code Agent 的评测从修 bug 转变为了实现全新的 feature。其论文发表于 ICLR 等国际会议。

电脑端观看地址

更多热门活动：

内容中包含的图片若涉及版权问题，请及时与我们联系删除

智源TALK｜智能体代码能力评测迈入新阶段，首个可Scaling！FeatureBench打造Agentic Coding评测新框架

评论列表

评论