- 简介大型语言模型的快速发展彻底改变了软件开发中的代码智能。然而,封闭源模型的主导地位限制了广泛的研究和发展。为了解决这个问题,我们介绍了DeepSeek-Coder系列,这是一系列开源代码模型,大小从1.3B到33B不等,从头开始训练了2万亿个标记。这些模型是在高质量的项目级代码语料库上进行预训练的,并采用了一个16K窗口的填空任务来增强代码生成和填充。我们广泛的评估表明,DeepSeek-Coder不仅在多个基准测试中实现了开源代码模型的最先进性能,而且还超过了现有的封闭源模型,如Codex和GPT-3.5。此外,DeepSeek-Coder模型采用宽松许可证,允许进行研究和无限制的商业使用。
- 图表
- 解决问题DeepSeek-Coder系列旨在解决目前封闭式代码模型限制了广泛研究和开发的问题,提供一系列开源代码模型,并在多个基准测试中实现最先进的性能。
- 关键思路DeepSeek-Coder系列采用从头开始训练的方式,使用高质量的项目级代码语料库进行预训练,并采用16K窗口的填空任务来增强代码生成和填充。论文通过大量的实验证明,DeepSeek-Coder不仅在多个基准测试中实现了开源代码模型的最先进性能,而且还超越了现有的封闭式模型。
- 其它亮点DeepSeek-Coder系列的模型大小从1.3B到33B不等,使用了2万亿个标记进行训练。模型采用的填空任务和预训练语料库都是高质量的。论文还提供了开源代码模型和许可证,可以进行研究和无限制的商业使用。
- 与此相关的最新研究包括Codex和GPT-3.5等封闭式代码模型,以及其他开源代码模型,如CodeBERT和GraphCodeBERT。
沙发等你来抢
去评论
评论
沙发等你来抢