- 简介我们介绍了一项名为“语法感知的填空(SAFIM)”的新基准,用于评估大型语言模型(LLMs)在代码填空(FIM)任务上的表现。这个基准专注于程序结构的语法感知完成,例如代码块和条件表达式,并包括来自多种编程语言的17,720个示例,来源于2022年4月之后的最新代码提交,以最小化数据污染。SAFIM提供了一个强大的框架,具有各种提示设计和新颖的语法感知后处理技术,便于在LLMs之间进行准确和公正的比较。我们对15个LLMs的全面评估表明,FIM预训练不仅可以提高FIM的熟练程度,还可以改善LLMs的从左到右(L2R)推理。我们的发现挑战了传统的信仰,并表明预训练方法和数据质量比模型大小更具影响力。因此,SAFIM成为未来有效的预训练策略研究的基础平台。评估工具包和数据集可在https://github.com/gonglinyuan/safim获得,排行榜可在https://safimbenchmark.com获得。
- 图表
- 解决问题本论文旨在提出一种新的基准测试框架 SAFIM,用于评估大型语言模型在代码填充任务中的表现。该任务着重于程序结构的语法感知自动补全,包括代码块和条件表达式等,数据集包含来自多种编程语言的 17,720 个示例,来源于 2022 年 4 月之后的最新代码提交,以尽量减少数据污染。通过 SAFIM,可以提供各种提示设计和新颖的语法感知后处理技术,从而促进对 LLMs 进行准确和公正的比较。
- 关键思路论文提出了 SAFIM 基准测试框架,用于评估大型语言模型在代码填充任务中的表现。该框架着重于程序结构的语法感知自动补全,提供了各种提示设计和新颖的语法感知后处理技术,从而促进对 LLMs 进行准确和公正的比较。在 15 个 LLMs 的全面评估中,论文发现 FIM 预训练不仅提高了 FIM 的熟练程度,而且还改善了 LLMs 的从左到右的推理能力。论文的发现挑战了传统的信念,并表明预训练方法和数据质量比模型大小更具影响力。
- 其它亮点本论文的亮点包括:提出了 SAFIM 基准测试框架,用于评估大型语言模型在代码填充任务中的表现;提供了各种提示设计和新颖的语法感知后处理技术;在 15 个 LLMs 的全面评估中,发现 FIM 预训练不仅提高了 FIM 的熟练程度,而且还改善了 LLMs 的从左到右的推理能力;该数据集包含来自多种编程语言的 17,720 个示例,来源于 2022 年 4 月之后的最新代码提交,以尽量减少数据污染;论文的评估工具和数据集可在 https://github.com/gonglinyuan/safim 上获得,排行榜可在 https://safimbenchmark.com 上查看。
- 在最近的相关研究中,也有一些关于代码填充任务的研究,如《CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing》、《Deep Code Comment Generation》等。
沙发等你来抢
去评论
评论
沙发等你来抢