报告主题:首个可Scaling!FeatureBench打造Agentic Coding评测新框架
报告日期:04月08日(周三) 10:30-11:30
2026年4月8日,智源社区邀请西安交通大学张家铖围绕《首个可Scaling!FeatureBench 打造 Agentic Coding 评测新框架》主题开展智源TALK活动。活动现场分享“FeatureBench: Benchmarking Agentic Coding for Complex Feature Development”学术论文。大模型赋能下,Agentic Coding 成为新一代代码开发范式,而现有评测基准的任务设计、场景适配性已难以匹配真实开发需求。本期报告提出了全新的 FeatureBench 评测框架,立足实际开发场景打造高质量评测基准,同时搭建起全流程开源的技术基础设施,既为当下 Code Agent 的能力评估提供了科学标准,也为后续相关模型的训练与优化筑牢了数据基础。随着大模型Coding能力的增强,当下的开发范式已经变为了人提需求,Agent 动手的模式。但主流代码评测基准如 SWE-bench 仍侧重于平均仅约 30 行的代码修补,且存在任务描述模糊、区分度逐渐饱和等问题,已与当前的真实使用场景存在较大差距。为此,我们推出了 FeatureBench,这是一个源于真实世界仓库、基于测试驱动的可scaling的高质量 Code 能力评测基准 。FeatureBench任务平均涉及 790.2 行代码修改,并配有规范的接口签名以消除歧义,更加符合当下真实开发场景。我们已完整开源了从数据生成到推理评测的全套基础设施,原生适配OpenHands 和 Claude Code 等主流 Agent 框架。FeatureBench 不仅一个是满足当下开发范式的评测基准,其自动化环境生产管线还将为后续Code Agent训练提供数据支持。报告嘉宾:
张家铖,西安交通大学钱学森班大四年级本科生,目前于华为小艺业务部门实习。他的研究方向聚焦 Code Agent 评测及训练。其工作 FeatureBench 提出了一种自动化抽取代码仓 feature 的方法,打破了SWE-bench 为代表的 PR-driven 自动提取评测任务的方法,将 Code Agent 的评测从修 bug 转变为了实现全新的 feature。其论文发表于 ICLR 等国际会议。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢