MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution

2024年03月26日
  • 简介
    在软件演进中,解决GitHub仓库中出现的问题是一个复杂的挑战,不仅涉及到新代码的整合,还包括维护现有功能。大型语言模型(LLMs)在代码生成和理解方面表现出了很大的潜力,但在仓库层面上进行代码更改时面临困难。为了克服这些挑战,我们通过实证研究了LLMs大多数失败的原因,并分析了一些影响因素。在实证研究的基础上,我们提出了一个新颖的基于LLMs的多代理人框架MAGIS,专门用于软件演进,包括四种代理人:经理、仓库管理员、开发人员和质量保证工程师代理人。该框架利用各种代理人在规划和编码过程中的协作,释放LLMs解决GitHub问题的潜力。在实验中,我们使用SWE-bench基准测试来比较MAGIS和流行的LLMs,包括GPT-3.5、GPT-4和Claude-2。MAGIS可以解决13.94%的GitHub问题,明显优于基线。具体而言,MAGIS在解决比率上比直接应用我们方法的基于GPT-4的LLM提高了8倍。我们还分析了提高GitHub问题解决率的因素,如行位置、任务分配等。
  • 图表
  • 解决问题
    解决GitHub代码库中出现的问题的挑战性,尤其是在代码变更方面。论文试图通过研究LLMs在解决GitHub问题时的失败原因和影响因素,提出一种新的基于LLM的多智能体框架MAGIS来解决这个问题。
  • 关键思路
    MAGIS框架由四种代理定制而成,包括经理、代码库管理员、开发人员和质量保证工程师代理。这个框架利用各种代理在规划和编码过程中的协作来发挥LLMs解决GitHub问题的潜力。
  • 其它亮点
    论文使用SWE-bench基准来比较MAGIS与流行的LLMs,包括GPT-3.5、GPT-4和Claude-2。MAGIS能够解决13.94%的GitHub问题,明显优于基线。具体来说,MAGIS在解决比率上比直接应用GPT-4的方法提高了8倍。此外,论文还分析了提高GitHub问题解决率的因素,如行位置、任务分配等。
  • 相关研究
    在这个领域,最近的相关研究包括“CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing”和“DeepCom: A Deep Learning Framework for Automated Comment Generation for Java Programs”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论