- 简介我们介绍了一种名为“基于语法的填空(SAFIM)”的新基准,用于评估大型语言模型(LLMs)在代码填空(FIM)任务上的表现。该基准侧重于程序结构的语法感知完成,如代码块和条件表达式,并包括来自多种编程语言的17,720个示例,这些示例源自2022年4月之后的最新代码提交,以最小化数据污染。SAFIM提供了一个强大的框架,具有各种提示设计和新颖的语法感知后处理技术,有助于在LLMs之间进行准确和公平的比较。我们对15个LLMs的全面评估表明,FIM预训练不仅增强了FIM的熟练程度,还改善了使用LLMs的从左到右(L2R)推理。我们的发现挑战了传统信念,并表明预训练方法和数据质量比模型大小更具影响力。因此,SAFIM成为未来研究有效的代码LLMs预训练策略的基础平台。评估工具包和数据集可在https://github.com/gonglinyuan/safim获得,排行榜可在https://safimbenchmark.com获得。
- 图表
- 解决问题论文介绍了一个新的基准测试SAFIM,用于评估大型语言模型在代码填空任务上的表现。研究旨在探讨预训练方法和数据质量对于代码LLMs有效预训练策略的影响。
- 关键思路SAFIM基于语法感知的代码结构填充,包括代码块和条件表达式等。研究表明,FIM预训练不仅提高了FIM的熟练程度,还提高了LLMs的从左到右的推理能力。
- 其它亮点论文包括17720个来自多种编程语言的示例,使用了多种提示设计和新颖的语法感知后处理技术,以促进准确和公平的LLMs比较。15种LLMs的全面评估表明,预训练方法和数据质量对于代码LLMs有效预训练策略的影响大于模型大小。研究还提供了评估工具包和数据集,并提供了排行榜。
- 最近的相关研究包括GPT-3和CodeBERT等,它们都是探索如何使用大型语言模型来进行代码生成和代码理解的。
沙发等你来抢
去评论
评论
沙发等你来抢