Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks

简介

我们介绍了一项名为“语法感知的填空（SAFIM）”的新基准，用于评估大型语言模型（LLMs）在代码填空（FIM）任务上的表现。这个基准专注于程序结构的语法感知完成，例如代码块和条件表达式，并包括来自多种编程语言的17,720个示例，来源于2022年4月之后的最新代码提交，以最小化数据污染。SAFIM提供了一个强大的框架，具有各种提示设计和新颖的语法感知后处理技术，便于在LLMs之间进行准确和公正的比较。我们对15个LLMs的全面评估表明，FIM预训练不仅可以提高FIM的熟练程度，还可以改善LLMs的从左到右（L2R）推理。我们的发现挑战了传统的信仰，并表明预训练方法和数据质量比模型大小更具影响力。因此，SAFIM成为未来有效的预训练策略研究的基础平台。评估工具包和数据集可在https://github.com/gonglinyuan/safim获得，排行榜可在https://safimbenchmark.com获得。
图表
解决问题

本论文旨在提出一种新的基准测试框架 SAFIM，用于评估大型语言模型在代码填充任务中的表现。该任务着重于程序结构的语法感知自动补全，包括代码块和条件表达式等，数据集包含来自多种编程语言的 17,720 个示例，来源于 2022 年 4 月之后的最新代码提交，以尽量减少数据污染。通过 SAFIM，可以提供各种提示设计和新颖的语法感知后处理技术，从而促进对 LLMs 进行准确和公正的比较。
关键思路

论文提出了 SAFIM 基准测试框架，用于评估大型语言模型在代码填充任务中的表现。该框架着重于程序结构的语法感知自动补全，提供了各种提示设计和新颖的语法感知后处理技术，从而促进对 LLMs 进行准确和公正的比较。在 15 个 LLMs 的全面评估中，论文发现 FIM 预训练不仅提高了 FIM 的熟练程度，而且还改善了 LLMs 的从左到右的推理能力。论文的发现挑战了传统的信念，并表明预训练方法和数据质量比模型大小更具影响力。
其它亮点

本论文的亮点包括：提出了 SAFIM 基准测试框架，用于评估大型语言模型在代码填充任务中的表现；提供了各种提示设计和新颖的语法感知后处理技术；在 15 个 LLMs 的全面评估中，发现 FIM 预训练不仅提高了 FIM 的熟练程度，而且还改善了 LLMs 的从左到右的推理能力；该数据集包含来自多种编程语言的 17,720 个示例，来源于 2022 年 4 月之后的最新代码提交，以尽量减少数据污染；论文的评估工具和数据集可在 https://github.com/gonglinyuan/safim 上获得，排行榜可在 https://safimbenchmark.com 上查看。
相关研究

在最近的相关研究中，也有一些关于代码填充任务的研究，如《CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing》、《Deep Code Comment Generation》等。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论