BigCode推出语言生成模型 StarCoder，80+编程语言的1T token训练，HumanEval评分40.8%

BigCode刚刚发布了编程语言生成模型 StarCoder。核心版本 StarCoderBase 具有 155 亿个参数，支持80多种编程语言，8192个token的上下文。

StarCoder: 在基座模型上额外使用350亿Python语言的Token训练而成。在有提示词环境下，HumanEval评分40.8%，超过一众早先发布的模型，以及replit-finetuned-v1-3b（30.5%）。

、

BigCode是由HuggingFace与ServiceNow Research共同发起的代码大模型项目，与其姊妹项目BigScience一样，也是一个开放的研究项目。

开放式大型代码语言模型StarCoder

要点:

动机：BigCode社区致力于开发大型语言模型，StarCoder和StarCoderBase是其在代码LLM领域的最新成果，为研究和开发社区提供了开放、透明和可重复的代码LLM。
方法：通过使用大量开源代码库进行训练，结合改进的PII(个人识别信息)去标识化管道和新的归因工具，研究团队创建了StarCoder和StarCoderBase模型，并进行了广泛的代码LLM评估。
优势：StarCoder在多种编程语言上优于其他开源LLM模型，与OpenAI的闭源模型code-cushman-001相匹配或超越其性能。通过发布开放的负责任AI模型许可证和开源代码库，提高了代码LLM的可访问性、可重现性和透明性。

介绍了BigCode社区开发的StarCoder和StarCoderBase，使用代码进行训练的开放式大型语言模型(LLM)。通过组合多种能力和架构特征，StarCoder在广泛的编程语言上实现了卓越的性能，提供了全面的代码LLM评估和安全开放模型发布方案。

内容中包含的图片若涉及版权问题，请及时与我们联系删除