- 简介在这项工作中,我们系统地回顾了使用语言模型进行代码处理的最新进展,涵盖了50多种模型、30多个评估任务、150多个数据集和550多个相关工作。我们将代码处理模型分为通用语言模型(由GPT系列代表)和专门针对代码预训练的专业模型,通常具有定制的目标。我们讨论了这些模型之间的关系和差异,并强调了代码建模从统计模型和RNN到预训练的Transformer和LLM的历史转变,这正是NLP所采取的相同路线。我们还讨论了代码特定的特征,如AST、CFG和单元测试,以及它们在训练代码语言模型中的应用,并确定了这个领域的关键挑战和潜在未来方向。我们在GitHub存储库https://github.com/codefuse-ai/Awesome-Code-LLM上保持调查的开放和更新。
- 图表
- 解决问题系统地回顾了代码处理中的语言模型的最新进展,涵盖50多个模型、30多个评估任务、150多个数据集和550个相关工作。
- 关键思路将代码处理模型分为通用语言模型和专门预训练的代码模型,并讨论它们之间的关系和差异。同时,强调了代码建模从统计模型和RNN到预训练的Transformers和LLMs的历史转变,这与NLP所采取的路线完全相同。
- 其它亮点讨论了代码特定功能,如AST、CFG和单元测试,以及它们在训练代码语言模型中的应用,同时确定了该领域的关键挑战和潜在未来方向。该研究在GitHub存储库上开放并更新。
- 最近在该领域中,还有一些相关的研究,如《CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing》、《CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation》等。
沙发等你来抢
去评论
评论
沙发等你来抢