- 简介大型语言模型(LLMs)在软件工程(SE)中可以提供编码帮助。为了促进在实际编码环境中对LLMs进行严格评估,Carlos等人引入了SWE-bench数据集,该数据集包括从12个广泛使用的Python存储库中收集的2,294个真实世界的GitHub问题及其相应的拉取请求。最近开发了几个令人印象深刻的基于LLM的工具包,并在该数据集上进行了评估。然而,对SWE-bench的质量进行系统评估仍然缺失。在本文中,我们通过对SWE-bench数据集进行实证分析来填补这一空白。我们通过比较模型生成的补丁和实际的拉取请求,对SWE-Agent+GPT-4成功解决问题的实例进行了手动筛选。在我们研究期间,SWE-Agent+GPT-4位于SWE-bench排行榜的顶部。我们的分析揭示了SWE-bench数据集存在一些关键问题:1)32.67%的成功补丁涉及作弊,因为解决方案是直接在问题报告或评论中提供的。我们称之为解决方案泄漏问题。2)31.08%的通过补丁是可疑的补丁,由于测试用例不足,即测试不足以验证补丁的正确性。当我们过滤掉这些有问题的问题时,SWE-Agent+GPT-4的解决率从12.47%降至3.97%。我们还观察到,SWE-bench的两个变体(即SWE-bench Lite和SWE-Bench Verified)中也存在相同的数据质量问题。此外,超过94%的问题是在LLM的知识截止日期之前创建的,存在潜在的数据泄漏问题。
- 图表
- 解决问题对SWE-bench数据集的质量进行评估,揭示其中存在的问题
- 关键思路通过手动筛选,揭示SWE-bench数据集中存在的解决方案泄漏和测试不充分等问题,对SWE-Agent+GPT-4的解决率进行重新评估
- 其它亮点发现SWE-bench数据集中存在解决方案泄漏和测试不充分等问题,重新评估了SWE-Agent+GPT-4的解决率,同时发现这些问题也存在于SWE-bench Lite和SWE-Bench Verified数据集中,提出了潜在的数据泄漏问题
- 最近的相关研究包括Carlos等人的SWE-bench数据集介绍和LLM在SE中的应用研究
沙发等你来抢
去评论
评论
沙发等你来抢