SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

简介

最近发布的DeepSeek-R1展示了强化学习（RL）在增强大型语言模型（LLM）的通用推理能力方面具有巨大潜力。虽然DeepSeek-R1和其他后续工作主要集中在将RL应用于竞争性编程和数学问题上，本文介绍了SWE-RL，这是第一个将基于RL的LLM推理扩展到实际软件工程的方法。通过利用轻量级规则奖励（例如，真实解与LLM生成解之间的相似度得分），SWE-RL使LLM能够自主恢复开发人员的推理过程和解决方案，通过从大量开源软件演变数据中学习——这些数据记录了软件整个生命周期的记录，包括代码快照、代码更改以及诸如问题和拉取请求等事件。在Llama 3的基础上训练，我们得到的推理模型Llama3-SWE-RL-70B在SWE-bench Verified上的解决率达到41.0%——这是一个经过人工验证的真实世界GitHub问题集合。据我们所知，这是迄今为止中等规模（<100B参数）LLM报告的最佳性能，甚至可以与领先的专有LLM如GPT-4相媲美。令人惊讶的是，尽管仅在软件演变数据上进行RL训练，Llama3-SWE-RL还展现出了泛化的推理技能。例如，在五个领域外任务上，即函数编码、库使用、代码推理、数学和一般语言理解方面，它表现出了改进的结果，而监督微调基线平均会导致性能下降。总体而言，SWE-RL为通过在大规模软件工程数据上应用强化学习来提高LLM的推理能力开辟了一个新方向。
图表
解决问题

该论文试图解决如何通过强化学习（RL）增强大型语言模型（LLMs）在实际软件工程任务中的推理能力问题。这是一个相对较新的领域，特别是将RL应用于大规模的、真实的软件工程环境中。
关键思路

关键思路是引入SWE-RL方法，利用轻量级规则奖励机制（如相似度评分）和大量的开源软件演化数据（包括代码快照、变更记录及事件），使LLMs能够自主学习并恢复开发者的推理过程和解决方案。相比于现有研究，此方法首次规模化地应用RL于实际软件工程任务，并展示了跨领域的泛化能力。
其它亮点

实验设计上，SWE-RL训练了基于Llama 3的70B参数模型，在SWE-bench Verified数据集上达到了41.0%的解决率，这是中等规模（<100B参数）LLM的最佳表现之一。此外，尽管仅使用软件工程数据进行RL训练，但模型在其他五个非本领域任务上也表现出色。该研究还提供了开源代码和数据集，为未来的研究奠定了基础。
相关研究

近期相关研究包括DeepSeek-R1项目，它探索了RL在竞争性编程和数学问题上的应用；以及各种专注于改进LLMs特定技能（如编码或数学）的工作。值得注意的是，SWE-RL不仅限于这些狭窄的应用场景，而是开辟了一条通向更广泛适用性的新路径。其他相关研究可能涉及如何更好地利用结构化数据训练LLMs，或者探讨不同类型的奖励函数对模型性能的影响。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论