Raising the bar on SWE-bench Verified with Claude 3.5 Sonnet

最新的Claude 3.5 Sonnet模型在SWE-bench Verified软件工程评估中取得了49%的成绩，超越了此前最先进模型的45%。本文介绍了围绕该模型构建的“代理”系统，旨在帮助开发者最大化Claude 3.5 Sonnet的性能。SWE-bench是一个AI评估基准，主要测试模型完成实际软件工程任务的能力，特别是解决来自热门开源Python仓库的GitHub问题。在每个任务中，AI模型被提供一个设置好的Python环境和问题解决前的仓库本地副本。模型需要理解、修改和测试代码，并提交解决方案。每个解决方案都会根据关闭原始GitHub问题的拉取请求中的真实单元测试进行评分，以检验AI模型是否能够正确解决问题。

本专栏通过快照技术转载，仅保留核心内容