DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

简介

大型语言模型的快速发展彻底改变了软件开发中的代码智能。然而，封闭源模型的主导地位限制了广泛的研究和发展。为了解决这个问题，我们介绍了DeepSeek-Coder系列，这是一系列开源代码模型，大小从1.3B到33B不等，从头开始训练了2万亿个标记。这些模型是在高质量的项目级代码语料库上进行预训练的，并采用了一个16K窗口的填空任务来增强代码生成和填充。我们广泛的评估表明，DeepSeek-Coder不仅在多个基准测试中实现了开源代码模型的最先进性能，而且还超过了现有的封闭源模型，如Codex和GPT-3.5。此外，DeepSeek-Coder模型采用宽松许可证，允许进行研究和无限制的商业使用。
图表
解决问题

DeepSeek-Coder系列旨在解决目前封闭式代码模型限制了广泛研究和开发的问题，提供一系列开源代码模型，并在多个基准测试中实现最先进的性能。
关键思路

DeepSeek-Coder系列采用从头开始训练的方式，使用高质量的项目级代码语料库进行预训练，并采用16K窗口的填空任务来增强代码生成和填充。论文通过大量的实验证明，DeepSeek-Coder不仅在多个基准测试中实现了开源代码模型的最先进性能，而且还超越了现有的封闭式模型。
其它亮点

DeepSeek-Coder系列的模型大小从1.3B到33B不等，使用了2万亿个标记进行训练。模型采用的填空任务和预训练语料库都是高质量的。论文还提供了开源代码模型和许可证，可以进行研究和无限制的商业使用。
相关研究

与此相关的最新研究包括Codex和GPT-3.5等封闭式代码模型，以及其他开源代码模型，如CodeBERT和GraphCodeBERT。

DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

评论