RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning

简介

本文提出了一种端到端的强化学习方法，用于在代码合成领域中教授模型利用执行反馈，从而可靠地实现期望的结果。大型语言模型（LLMs）作为代理人，通过多个步骤解决用户指定的任务，同时将所需的手动参与降到最低。关键是，这些LLMs需要将它们生成的结果与获得的任何反馈联系起来，以可靠地实现期望的结果。我们在竞争性编程任务上进行了基准测试，在小型（8B参数）和大型（70B参数）模型上均取得了新的最先进结果，同时将所需的样本数量降低了一个数量级。我们对推理时间行为的分析表明，我们的方法可以产生有效地利用自动反馈的LLMs，进行多步操作。
图表
解决问题

提高大型语言模型在代码合成中的迭代效率，使其能够更好地利用执行反馈
关键思路

提出了一种端到端的强化学习方法，通过自动反馈来教授模型在代码合成中迭代改进，从而在竞争性编程任务中实现了新的最先进结果，并将所需样本数量降低了一个数量级
其它亮点

论文使用了端到端的强化学习方法来教授模型如何在代码合成中利用执行反馈，实现了新的最先进结果，并将所需样本数量降低了一个数量级。论文还提供了实验细节和开源代码，值得进一步研究。
相关研究

最近的相关研究包括《Learning to Generate Code with Graph Transformation》、《Code Generation with Transformers》等。

RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning

评论