CodeLL: A Lifelong Learning Dataset to Support the Co-Evolution of Data and Language Models of Code

简介

本文受到最近关于语言模型（LMs）在终身学习应用于代码方面的研究的启发，我们介绍了CodeLL，这是一个专注于代码变化的终身学习数据集。我们的贡献填补了一个显著的研究空白，即现有代码变化数据集中缺乏长期时间维度，从而限制了它们在终身学习场景中的适用性。相反，我们的数据集旨在全面捕捉开源软件库的整个发布历史中的代码变化。在本文中，我们介绍了CodeLL的初始版本，包括从Software Heritage挖掘出的71个基于机器学习的项目。该数据集使得可以提取和深入分析跨越2483个版本的代码变化，包括方法和API级别。CodeLL使得研究人员可以在终身微调设置中研究LMs的行为，以学习代码变化。此外，该数据集还可以帮助研究软件库中的数据分布变化以及API使用随时间的演变。
图表
解决问题

本论文旨在填补现有代码更改数据集中缺乏长期时间维度的研究空白，提出了一个全面捕捉开源软件库发布历史中代码更改的生命周期学习数据集CodeLL。
关键思路

CodeLL数据集的关键思路是通过挖掘Software Heritage中的71个基于机器学习的项目，全面捕捉跨越2,483个版本的代码更改，包括方法和API级别的更改，以便研究Lifelong Fine-tuning场景下的LM行为。
其它亮点

论文的亮点包括提出了一个新的全面的代码更改数据集，可以用于Lifelong Fine-tuning场景下的LM研究，以及用于研究软件库中数据分布变化和API使用随时间的演变。实验设计详细，使用的数据集开源，有助于后续研究。
相关研究

最近的相关研究包括基于语言模型的代码学习和迁移学习等。其中一些研究论文的标题包括“CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing”和“Unsupervised Code Similarity Detection via Graph Embedding”。

CodeLL: A Lifelong Learning Dataset to Support the Co-Evolution of Data and Language Models of Code

评论