A Survey on Large Language Models for Code Generation

2024年06月01日
  • 简介
    大型语言模型(LLMs)在各种与代码相关的任务中取得了显著的进展,被称为Code LLMs,特别是在使用LLM从自然语言描述中生成源代码的代码生成方面。这个新兴领域引起了学术研究人员和行业专业人士的极大兴趣,因为它在软件开发中具有实际意义,例如GitHub Copilot。尽管LLMs在各种代码任务中的应用得到了积极的探索,无论是从自然语言处理(NLP)还是软件工程(SE)的角度,还是两者兼备,但是专门针对LLM用于代码生成的全面且最新的文献综述明显缺失。在本次调查中,我们旨在弥补这一空白,提供一篇系统的文献综述,作为研究人员调查LLMs用于代码生成的前沿进展的有价值的参考资料。我们引入了一个分类法,对LLMs用于代码生成的最新发展进行分类和讨论,涵盖数据整理、最新进展、性能评估和实际应用等方面。此外,我们提供了LLMs用于代码生成演变的历史概述,并使用广泛认可的HumanEval和MBPP基准进行了实证比较,以突显LLM在代码生成方面的能力不断提升。我们确定了学术界和实际开发之间差距的关键挑战和有前途的机遇。此外,我们建立了一个专门的资源网站(https://codellm.github.io),以持续记录和传播该领域最新的进展。
  • 图表
  • 解决问题
    这篇论文旨在填补自然语言处理和软件工程领域中缺乏系统性和最新综述的空白,通过系统性的文献综述,提供最新的关于使用LLMs进行代码生成的研究进展,以及实际应用和性能评估。
  • 关键思路
    该论文提出了一种分类方法,对最近的LLMs进行了分类和讨论,并比较了不同模型的性能。通过实验对比,论文表明了LLMs在代码生成方面的潜力和局限性,并探讨了未来的研究方向。
  • 其它亮点
    该论文的亮点包括提出了分类方法,对最新的LLMs进行了全面的讨论和比较,探讨了LLMs在代码生成方面的潜力和局限性,提供了开源代码和实验数据集,以及对未来的研究方向进行了展望。
  • 相关研究
    最近的相关研究包括《CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing》、《Deep Code Comment Generation》、《Code Generation Using a Transformer-Based Language Model and a Syntax-Aware Editor》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论