DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

简介

大语言模型的快速发展已经彻底改变了软件开发中的代码智能。然而，封闭源模型的盛行限制了广泛的研究和开发。为了解决这个问题，我们推出了DeepSeek-Coder系列，这是一系列开源的代码模型，大小从1.3B到33B不等，是从头开始训练的，训练数据达到2万亿个标记。这些模型是在高质量的项目级代码语料库上预训练的，并采用填空任务和一个16K的窗口来增强代码生成和填充。我们进行了广泛的评估，证明DeepSeek-Coder不仅在多个基准测试中实现了开源代码模型的最新性能，而且还超过了现有的封闭源模型，如Codex和GPT-3.5。此外，DeepSeek-Coder模型采用宽松的许可证，允许进行研究和无限制的商业使用。
图表
解决问题

DeepSeek-Coder试图解决的问题是缺乏开源代码模型的限制问题，通过引入一系列开源代码模型来解决这个问题。
关键思路

DeepSeek-Coder使用从头开始训练的代码模型，通过填空任务和16K窗口来增强代码生成和填充，并在高质量项目级代码语料库上进行预训练。这种方法在多个基准测试中实现了最先进的性能，并超过了现有的闭源模型。
其它亮点

DeepSeek-Coder在多个基准测试中展现出最先进的性能，并超过了现有的闭源模型，而且模型的许可证允许进行研究和无限制的商业使用。论文详细介绍了实验的设计和使用的数据集，同时开源了代码。
相关研究

最近的相关研究包括Codex和GPT-3.5等闭源模型，以及其他一些开源代码模型，如CodeBERT、CodeGPT、CodeFormer等。

DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

评论