Ecosystem of Large Language Models for Code

简介

公开可访问的源代码数据量巨大，现代语言模型的进步以及计算资源的不断增加，导致了大型代码语言模型（LLM4Code）的快速发展。代码数据集和模型之间的交互产生了一个复杂的生态系统，具有值得研究的复杂依赖关系。本文介绍了对代码模型生态系统进行先驱性分析的研究。我们以 Hugging Face 作为主要来源，筛选出一组手动确认与软件工程相关的数据集和模型。通过分析生态系统，我们首先确定了流行和有影响力的数据集、模型和贡献者。流行程度通过各种指标进行量化，包括下载次数、点赞次数、重用次数等。生态系统遵循幂律分布，表明用户更喜欢广为认可的模型和数据集。然后，我们手动将生态系统中的模型重用分类为九类，分析普遍的模型重用实践。最受欢迎的三种重用类型是微调、架构共享和量化。我们还探讨了关于 LLM4Code 发布的实践，特别是文档实践和许可证选择。我们发现，生态系统中的文档信息比 GitHub 上托管的一般人工智能（AI）相关代码库中的信息更少。此外，许可证的使用也与其他软件库不同。生态系统中的模型采用一些 AI 特定的许可证，例如 RAIL（负责任的 AI 许可证）和 AI 模型许可协议。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

分析代码模型生态系统中的数据集、模型和贡献者，探讨模型的重用方式和LLM4Code的出版实践
关键思路

通过对Hugging Face平台上与软件工程相关的数据集和模型进行分析，识别出最受欢迎和最具影响力的数据集、模型和贡献者，研究模型的重用方式并探讨LLM4Code的出版实践。
其它亮点

使用多种指标量化数据集和模型的受欢迎程度，发现生态系统遵循幂律分布；将模型的重用方式分为九类，最受欢迎的是fine-tuning、架构共享和量化；探讨LLM4Code的出版实践，发现文档信息较少，使用的许可证也与其他软件代码库不同。
相关研究

最近的相关研究包括《A Large-Scale Study of Programming Languages and Code Quality in Github》、《Code2seq: Generating Sequences from Structured Representations of Code》等。

Ecosystem of Large Language Models for Code

提问交流

提问交流