Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks

简介

我们介绍了一种名为“基于语法的填空（SAFIM）”的新基准，用于评估大型语言模型（LLMs）在代码填空（FIM）任务上的表现。该基准侧重于程序结构的语法感知完成，如代码块和条件表达式，并包括来自多种编程语言的17,720个示例，这些示例源自2022年4月之后的最新代码提交，以最小化数据污染。SAFIM提供了一个强大的框架，具有各种提示设计和新颖的语法感知后处理技术，有助于在LLMs之间进行准确和公平的比较。我们对15个LLMs的全面评估表明，FIM预训练不仅增强了FIM的熟练程度，还改善了使用LLMs的从左到右（L2R）推理。我们的发现挑战了传统信念，并表明预训练方法和数据质量比模型大小更具影响力。因此，SAFIM成为未来研究有效的代码LLMs预训练策略的基础平台。评估工具包和数据集可在https://github.com/gonglinyuan/safim获得，排行榜可在https://safimbenchmark.com获得。
图表
解决问题

论文介绍了一个新的基准测试SAFIM，用于评估大型语言模型在代码填空任务上的表现。研究旨在探讨预训练方法和数据质量对于代码LLMs有效预训练策略的影响。
关键思路

SAFIM基于语法感知的代码结构填充，包括代码块和条件表达式等。研究表明，FIM预训练不仅提高了FIM的熟练程度，还提高了LLMs的从左到右的推理能力。
其它亮点

论文包括17720个来自多种编程语言的示例，使用了多种提示设计和新颖的语法感知后处理技术，以促进准确和公平的LLMs比较。15种LLMs的全面评估表明，预训练方法和数据质量对于代码LLMs有效预训练策略的影响大于模型大小。研究还提供了评估工具包和数据集，并提供了排行榜。
相关研究

最近的相关研究包括GPT-3和CodeBERT等，它们都是探索如何使用大型语言模型来进行代码生成和代码理解的。

Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks

评论