MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution

简介

在软件演进中，解决GitHub仓库中出现的问题是一个复杂的挑战，不仅涉及到新代码的整合，还包括维护现有功能。大型语言模型（LLMs）在代码生成和理解方面表现出了很大的潜力，但在仓库层面上进行代码更改时面临困难。为了克服这些挑战，我们通过实证研究了LLMs大多数失败的原因，并分析了一些影响因素。在实证研究的基础上，我们提出了一个新颖的基于LLMs的多代理人框架MAGIS，专门用于软件演进，包括四种代理人：经理、仓库管理员、开发人员和质量保证工程师代理人。该框架利用各种代理人在规划和编码过程中的协作，释放LLMs解决GitHub问题的潜力。在实验中，我们使用SWE-bench基准测试来比较MAGIS和流行的LLMs，包括GPT-3.5、GPT-4和Claude-2。MAGIS可以解决13.94%的GitHub问题，明显优于基线。具体而言，MAGIS在解决比率上比直接应用我们方法的基于GPT-4的LLM提高了8倍。我们还分析了提高GitHub问题解决率的因素，如行位置、任务分配等。
图表
解决问题

解决GitHub代码库中出现的问题的挑战性，尤其是在代码变更方面。论文试图通过研究LLMs在解决GitHub问题时的失败原因和影响因素，提出一种新的基于LLM的多智能体框架MAGIS来解决这个问题。
关键思路

MAGIS框架由四种代理定制而成，包括经理、代码库管理员、开发人员和质量保证工程师代理。这个框架利用各种代理在规划和编码过程中的协作来发挥LLMs解决GitHub问题的潜力。
其它亮点

论文使用SWE-bench基准来比较MAGIS与流行的LLMs，包括GPT-3.5、GPT-4和Claude-2。MAGIS能够解决13.94%的GitHub问题，明显优于基线。具体来说，MAGIS在解决比率上比直接应用GPT-4的方法提高了8倍。此外，论文还分析了提高GitHub问题解决率的因素，如行位置、任务分配等。
相关研究

在这个领域，最近的相关研究包括“CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing”和“DeepCom: A Deep Learning Framework for Automated Comment Generation for Java Programs”。

MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution

评论