- 简介BigCode项目是一个开放的科学协作项目,专注于负责任地开发用于编程的大型语言模型(Code LLMs),其介绍了StarCoder2。我们与Software Heritage(SWH)合作,在其源代码归档的数字公共库的基础上构建了The Stack v2。除了SWH存储的覆盖619种编程语言的代码库外,我们还精选了其他高质量的数据源,如GitHub pull requests、Kaggle笔记本和代码文档。这导致训练集比第一个StarCoder数据集大4倍。我们使用3.3到4.3万亿个令牌对3B、7B和15B参数的StarCoder2模型进行训练,并在全面的Code LLM基准测试中进行了彻底评估。我们发现,我们的小型模型StarCoder2-3B在大多数基准测试中优于其他类似大小的Code LLM,并且也优于StarCoderBase-15B。我们的大型模型StarCoder2-15B显着优于其他相似大小的模型。此外,它与CodeLlama-34B相匹配或优于它,而CodeLlama-34B的大小是StarCoder2-15B的两倍多。虽然DeepSeekCoder-33B是高资源语言代码完成的最佳模型,但我们发现StarCoder2-15B在数学和代码推理基准测试以及几种低资源语言上的表现优于它。我们以OpenRAIL许可证的形式提供模型权重,并通过发布源代码数据的Software Heritage持久标识符(SWHIDs)确保完全透明。
- 图表
- 解决问题StarCoder2试图解决如何负责任地开发大型代码语言模型的问题,并且验证了他们的模型在代码语言模型基准测试中的表现。
- 关键思路StarCoder2使用软件遗产存储库等高质量数据源,训练了3B、7B和15B参数的模型,并在全面的代码语言模型基准测试中对其进行了彻底评估。小型模型StarCoder2-3B在大多数基准测试中优于类似大小的其他代码语言模型,大型模型StarCoder2-15B在可比大小的其他模型中表现显著优异。
- 其它亮点论文使用了软件遗产持久性标识符(SWHIDs)公开了训练数据的完整透明度,并将模型权重发布在OpenRAIL许可下。实验设计了全面的代码语言模型基准测试,使用了高质量的数据集,如GitHub拉取请求、Kaggle笔记本和代码文档。同时,该论文还发现StarCoder2-15B在数学和代码推理基准测试以及一些低资源语言上优于其他模型。
- 近期的相关研究包括CodeLlama-34B和DeepSeekCoder-33B等大型代码语言模型的研究。
沙发等你来抢
去评论
评论
沙发等你来抢