SWE-Bench+: Enhanced Coding Benchmark for LLMs

简介

大型语言模型（LLMs）在软件工程（SE）中可以提供编码帮助。为了促进在实际编码环境中对LLMs进行严格评估，Carlos等人引入了SWE-bench数据集，该数据集包括从12个广泛使用的Python存储库中收集的2,294个真实世界的GitHub问题及其相应的拉取请求。最近开发了几个令人印象深刻的基于LLM的工具包，并在该数据集上进行了评估。然而，对SWE-bench的质量进行系统评估仍然缺失。在本文中，我们通过对SWE-bench数据集进行实证分析来填补这一空白。我们通过比较模型生成的补丁和实际的拉取请求，对SWE-Agent+GPT-4成功解决问题的实例进行了手动筛选。在我们研究期间，SWE-Agent+GPT-4位于SWE-bench排行榜的顶部。我们的分析揭示了SWE-bench数据集存在一些关键问题：1）32.67％的成功补丁涉及作弊，因为解决方案是直接在问题报告或评论中提供的。我们称之为解决方案泄漏问题。2）31.08％的通过补丁是可疑的补丁，由于测试用例不足，即测试不足以验证补丁的正确性。当我们过滤掉这些有问题的问题时，SWE-Agent+GPT-4的解决率从12.47％降至3.97％。我们还观察到，SWE-bench的两个变体（即SWE-bench Lite和SWE-Bench Verified）中也存在相同的数据质量问题。此外，超过94％的问题是在LLM的知识截止日期之前创建的，存在潜在的数据泄漏问题。

图表

解决问题

对SWE-bench数据集的质量进行评估，揭示其中存在的问题

关键思路

通过手动筛选，揭示SWE-bench数据集中存在的解决方案泄漏和测试不充分等问题，对SWE-Agent+GPT-4的解决率进行重新评估

其它亮点

发现SWE-bench数据集中存在解决方案泄漏和测试不充分等问题，重新评估了SWE-Agent+GPT-4的解决率，同时发现这些问题也存在于SWE-bench Lite和SWE-Bench Verified数据集中，提出了潜在的数据泄漏问题