SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

2025年07月16日
  • 简介
    在现实世界的软件工程中,代码性能优化至关重要,并且对于生产级系统尤为关键。尽管大语言模型(LLMs)在代码生成和缺陷修复方面展现了出色的能力,但它们在仓库级别提升代码性能方面的表现仍基本未被探索。为填补这一空白,我们推出了 SWE-Perf,这是首个专门设计用于在真实的仓库背景下系统评估 LLM 在代码性能优化任务表现的基准测试。SWE-Perf 包含 140 个精心筛选的实例,每个实例均源自知名 GitHub 仓库中涉及性能改进的拉取请求。每个基准测试实例包括相关的代码库、目标函数、与性能相关的测试、专家撰写的补丁以及可执行环境。通过对涵盖文件级和仓库级方法(例如 Agentless 和 OpenHands)的代表性方法进行全面评估,我们揭示了现有大语言模型与专家级优化水平之间仍存在显著的能力差距,突显了这一新兴领域中亟待探索的重要研究机会。
  • 图表
  • 解决问题
    论文旨在系统评估大型语言模型(LLMs)在真实仓库上下文中进行代码性能优化任务中的表现。尽管LLMs在代码生成和错误修复方面表现出色,但在存储库级别上提升代码性能的能力尚未得到充分探索。
  • 关键思路
    提出SWE-Perf,这是首个专门设计用于评估LLMs在真实仓库背景下进行代码性能优化能力的基准测试。它包含140个从流行GitHub仓库中提取的性能改进pull requests实例,并提供相关代码库、目标函数、性能相关测试、专家编写的补丁和可执行环境。
  • 其它亮点
    1. SWE-Perf是第一个专注于代码性能优化的LLM评估基准。 2. 通过全面评估现有方法(如Agentless和OpenHands),揭示了当前LLMs与专家级优化性能之间的显著差距。 3. 提供了开源数据集和可执行环境,支持后续研究。 4. 实验设计基于真实世界性能优化PR,确保任务的真实性和实用性。
  • 相关研究
    1. CodeGen: An Open-source Language Model for Code Generation 2. Codex: Evaluating Large Language Models for Code Generation 3. Repairing Real-World Bugs with Large Language Models 4. Repo-Level Code Understanding and Navigation with Neural Models 5. Evaluating the Ability of Large Language Models to Improve Software Testing
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问