SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

2025年02月25日
  • 简介
    最近发布的DeepSeek-R1展示了强化学习(RL)在增强大型语言模型(LLM)的通用推理能力方面具有巨大潜力。虽然DeepSeek-R1和其他后续工作主要集中在将RL应用于竞争性编程和数学问题上,本文介绍了SWE-RL,这是第一个将基于RL的LLM推理扩展到实际软件工程的方法。通过利用轻量级规则奖励(例如,真实解与LLM生成解之间的相似度得分),SWE-RL使LLM能够自主恢复开发人员的推理过程和解决方案,通过从大量开源软件演变数据中学习——这些数据记录了软件整个生命周期的记录,包括代码快照、代码更改以及诸如问题和拉取请求等事件。在Llama 3的基础上训练,我们得到的推理模型Llama3-SWE-RL-70B在SWE-bench Verified上的解决率达到41.0%——这是一个经过人工验证的真实世界GitHub问题集合。据我们所知,这是迄今为止中等规模(<100B参数)LLM报告的最佳性能,甚至可以与领先的专有LLM如GPT-4相媲美。令人惊讶的是,尽管仅在软件演变数据上进行RL训练,Llama3-SWE-RL还展现出了泛化的推理技能。例如,在五个领域外任务上,即函数编码、库使用、代码推理、数学和一般语言理解方面,它表现出了改进的结果,而监督微调基线平均会导致性能下降。总体而言,SWE-RL为通过在大规模软件工程数据上应用强化学习来提高LLM的推理能力开辟了一个新方向。
  • 图表
  • 解决问题
    该论文试图解决如何通过强化学习(RL)增强大型语言模型(LLMs)在实际软件工程任务中的推理能力问题。这是一个相对较新的领域,特别是将RL应用于大规模的、真实的软件工程环境中。
  • 关键思路
    关键思路是引入SWE-RL方法,利用轻量级规则奖励机制(如相似度评分)和大量的开源软件演化数据(包括代码快照、变更记录及事件),使LLMs能够自主学习并恢复开发者的推理过程和解决方案。相比于现有研究,此方法首次规模化地应用RL于实际软件工程任务,并展示了跨领域的泛化能力。
  • 其它亮点
    实验设计上,SWE-RL训练了基于Llama 3的70B参数模型,在SWE-bench Verified数据集上达到了41.0%的解决率,这是中等规模(<100B参数)LLM的最佳表现之一。此外,尽管仅使用软件工程数据进行RL训练,但模型在其他五个非本领域任务上也表现出色。该研究还提供了开源代码和数据集,为未来的研究奠定了基础。
  • 相关研究
    近期相关研究包括DeepSeek-R1项目,它探索了RL在竞争性编程和数学问题上的应用;以及各种专注于改进LLMs特定技能(如编码或数学)的工作。值得注意的是,SWE-RL不仅限于这些狭窄的应用场景,而是开辟了一条通向更广泛适用性的新路径。其他相关研究可能涉及如何更好地利用结构化数据训练LLMs,或者探讨不同类型的奖励函数对模型性能的影响。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论