- 简介公开可访问的源代码数据量巨大,现代语言模型的进步以及计算资源的不断增加,导致了大型代码语言模型(LLM4Code)的快速发展。代码数据集和模型之间的交互产生了一个复杂的生态系统,具有值得研究的复杂依赖关系。本文介绍了对代码模型生态系统进行先驱性分析的研究。我们以 Hugging Face 作为主要来源,筛选出一组手动确认与软件工程相关的数据集和模型。通过分析生态系统,我们首先确定了流行和有影响力的数据集、模型和贡献者。流行程度通过各种指标进行量化,包括下载次数、点赞次数、重用次数等。生态系统遵循幂律分布,表明用户更喜欢广为认可的模型和数据集。然后,我们手动将生态系统中的模型重用分类为九类,分析普遍的模型重用实践。最受欢迎的三种重用类型是微调、架构共享和量化。我们还探讨了关于 LLM4Code 发布的实践,特别是文档实践和许可证选择。我们发现,生态系统中的文档信息比 GitHub 上托管的一般人工智能(AI)相关代码库中的信息更少。此外,许可证的使用也与其他软件库不同。生态系统中的模型采用一些 AI 特定的许可证,例如 RAIL(负责任的 AI 许可证)和 AI 模型许可协议。
-
- 图表
- 解决问题分析代码模型生态系统中的数据集、模型和贡献者,探讨模型的重用方式和LLM4Code的出版实践
- 关键思路通过对Hugging Face平台上与软件工程相关的数据集和模型进行分析,识别出最受欢迎和最具影响力的数据集、模型和贡献者,研究模型的重用方式并探讨LLM4Code的出版实践。
- 其它亮点使用多种指标量化数据集和模型的受欢迎程度,发现生态系统遵循幂律分布;将模型的重用方式分为九类,最受欢迎的是fine-tuning、架构共享和量化;探讨LLM4Code的出版实践,发现文档信息较少,使用的许可证也与其他软件代码库不同。
- 最近的相关研究包括《A Large-Scale Study of Programming Languages and Code Quality in Github》、《Code2seq: Generating Sequences from Structured Representations of Code》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流