- 简介大语言模型的快速发展已经彻底改变了软件开发中的代码智能。然而,封闭源模型的盛行限制了广泛的研究和开发。为了解决这个问题,我们推出了DeepSeek-Coder系列,这是一系列开源的代码模型,大小从1.3B到33B不等,是从头开始训练的,训练数据达到2万亿个标记。这些模型是在高质量的项目级代码语料库上预训练的,并采用填空任务和一个16K的窗口来增强代码生成和填充。我们进行了广泛的评估,证明DeepSeek-Coder不仅在多个基准测试中实现了开源代码模型的最新性能,而且还超过了现有的封闭源模型,如Codex和GPT-3.5。此外,DeepSeek-Coder模型采用宽松的许可证,允许进行研究和无限制的商业使用。
- 图表
- 解决问题DeepSeek-Coder试图解决的问题是缺乏开源代码模型的限制问题,通过引入一系列开源代码模型来解决这个问题。
- 关键思路DeepSeek-Coder使用从头开始训练的代码模型,通过填空任务和16K窗口来增强代码生成和填充,并在高质量项目级代码语料库上进行预训练。这种方法在多个基准测试中实现了最先进的性能,并超过了现有的闭源模型。
- 其它亮点DeepSeek-Coder在多个基准测试中展现出最先进的性能,并超过了现有的闭源模型,而且模型的许可证允许进行研究和无限制的商业使用。论文详细介绍了实验的设计和使用的数据集,同时开源了代码。
- 最近的相关研究包括Codex和GPT-3.5等闭源模型,以及其他一些开源代码模型,如CodeBERT、CodeGPT、CodeFormer等。
沙发等你来抢
去评论
评论
沙发等你来抢