StarCoder 2 and The Stack v2: The Next Generation

Anton Lozhkov ,

Raymond Li ,

Loubna Ben Allal ,

Federico Cassano ,

Joel Lamy-Poirier ,

Nouamane Tazi ,

Ao Tang ,

Dmytro Pykhtar ,

Jiawei Liu ,

Yuxiang Wei ,

Tianyang Liu ,

Max Tian ,

Denis Kocetkov ,

Arthur Zucker ,

Younes Belkada ,

Zijian Wang ,

Qian Liu ,

Dmitry Abulkhanov ,

Indraneil Paul ,

Zhuang Li ,

Wen-Ding Li ,

Megan Risdal ,

Jia Li ,

Jian Zhu ,

Terry Yue Zhuo ,

Evgenii Zheltonozhskii ,

Nii Osae Osae Dade ,

Wenhao Yu ,

Lucas Krauß ,

Naman Jain ,

Yixuan Su ,

Xuanli He ,

Manan Dey ,

Edoardo Abati ,

Yekun Chai ,

Niklas Muennighoff ,

Xiangru Tang ,

Muhtasham Oblokulov ,

Christopher Akiki ,

Marc Marone ,

Chenghao Mou ,

Mayank Mishra ,

Alex Gu ,

Binyuan Hui ,

Tri Dao ,

Armel Zebaze ,

Olivier Dehaene ,

Nicolas Patry ,

Canwen Xu ,

Julian McAuley ,

Han Hu ,

Torsten Scholak ,

Sebastien Paquet ,

Jennifer Robinson ,

Carolyn Jane Anderson ,

Nicolas Chapados ,

Mostofa Patwary ,

Nima Tajbakhsh ,

Yacine Jernite ,

Carlos Muñoz Ferrandis ,

Lingming Zhang ,

Sean Hughes ,

Thomas Wolf ,

Arjun Guha ,

Leandro von Werra ,

Harm de Vries

2024年02月29日

简介

BigCode项目是一个开放的科学协作项目，专注于负责任地开发用于编程的大型语言模型（Code LLMs），其介绍了StarCoder2。我们与Software Heritage（SWH）合作，在其源代码归档的数字公共库的基础上构建了The Stack v2。除了SWH存储的覆盖619种编程语言的代码库外，我们还精选了其他高质量的数据源，如GitHub pull requests、Kaggle笔记本和代码文档。这导致训练集比第一个StarCoder数据集大4倍。我们使用3.3到4.3万亿个令牌对3B、7B和15B参数的StarCoder2模型进行训练，并在全面的Code LLM基准测试中进行了彻底评估。我们发现，我们的小型模型StarCoder2-3B在大多数基准测试中优于其他类似大小的Code LLM，并且也优于StarCoderBase-15B。我们的大型模型StarCoder2-15B显着优于其他相似大小的模型。此外，它与CodeLlama-34B相匹配或优于它，而CodeLlama-34B的大小是StarCoder2-15B的两倍多。虽然DeepSeekCoder-33B是高资源语言代码完成的最佳模型，但我们发现StarCoder2-15B在数学和代码推理基准测试以及几种低资源语言上的表现优于它。我们以OpenRAIL许可证的形式提供模型权重，并通过发布源代码数据的Software Heritage持久标识符（SWHIDs）确保完全透明。
图表
解决问题

StarCoder2试图解决如何负责任地开发大型代码语言模型的问题，并且验证了他们的模型在代码语言模型基准测试中的表现。
关键思路

StarCoder2使用软件遗产存储库等高质量数据源，训练了3B、7B和15B参数的模型，并在全面的代码语言模型基准测试中对其进行了彻底评估。小型模型StarCoder2-3B在大多数基准测试中优于类似大小的其他代码语言模型，大型模型StarCoder2-15B在可比大小的其他模型中表现显著优异。
其它亮点

论文使用了软件遗产持久性标识符（SWHIDs）公开了训练数据的完整透明度，并将模型权重发布在OpenRAIL许可下。实验设计了全面的代码语言模型基准测试，使用了高质量的数据集，如GitHub拉取请求、Kaggle笔记本和代码文档。同时，该论文还发现StarCoder2-15B在数学和代码推理基准测试以及一些低资源语言上优于其他模型。
相关研究

近期的相关研究包括CodeLlama-34B和DeepSeekCoder-33B等大型代码语言模型的研究。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论