A Survey on Language Models for Code

Ziyin Zhang ,
Chaoyu Chen ,
Bingchang Liu ,
Cong Liao ,
Zi Gong ,
Hang Yu ,
Jianguo Li ,
Rui Wang
2023年11月14日
  • 简介
    在这项工作中,我们系统地回顾了使用语言模型进行代码处理的最新进展,涵盖了50多种模型、30多项评估任务和500多个相关作品。我们将代码处理模型分为通用语言模型(由GPT系列代表)和专门针对代码进行预训练的特殊模型,通常具有定制目标。我们讨论了这些模型之间的关系和差异,并强调了代码建模从统计模型和RNN到预训练变形金刚和LLM的历史转变,这正是NLP所采取的相同路径。我们还讨论了代码特定的功能,如AST、CFG和单元测试,以及它们在训练代码语言模型中的应用,并确定了该领域的关键挑战和潜在未来方向。我们将调查保持开放并在GitHub存储库上更新,网址为https://github.com/codefuse-ai/Awesome-Code-LLM。
  • 图表
  • 解决问题
    系统地回顾了最近在代码处理方面的语言模型的进展,涵盖了50多个模型、30多个评估任务和500多个相关工作。
  • 关键思路
    将代码处理模型分为GPT系列代表的通用语言模型和专门针对代码进行预训练的专业模型,重点讨论它们之间的关系和差异,以及代码建模从统计模型和RNN到预训练Transformer和LLM的历史转变。
  • 其它亮点
    讨论了代码特定的功能,如AST、CFG和单元测试,以及它们在训练代码语言模型中的应用,同时确定了该领域的关键挑战和潜在未来方向。该研究在github上保持开放和更新,提供了相关工作和开源代码。
  • 相关研究
    在这个领域中的最近相关研究包括:1. CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing; 2. GraphCodeBERT: Pre-trained Neural Models for Programming and Graph-based Learning; 3. CodeGPT: Generative Pre-training of Deep Learning Frameworks for Code Completion and Generation.
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论