DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

2024年01月25日
  • 简介
    大语言模型的快速发展已经彻底改变了软件开发中的代码智能。然而,封闭源模型的盛行限制了广泛的研究和开发。为了解决这个问题,我们推出了DeepSeek-Coder系列,这是一系列开源的代码模型,大小从1.3B到33B不等,是从头开始训练的,训练数据达到2万亿个标记。这些模型是在高质量的项目级代码语料库上预训练的,并采用填空任务和一个16K的窗口来增强代码生成和填充。我们进行了广泛的评估,证明DeepSeek-Coder不仅在多个基准测试中实现了开源代码模型的最新性能,而且还超过了现有的封闭源模型,如Codex和GPT-3.5。此外,DeepSeek-Coder模型采用宽松的许可证,允许进行研究和无限制的商业使用。
  • 图表
  • 解决问题
    DeepSeek-Coder试图解决的问题是缺乏开源代码模型的限制问题,通过引入一系列开源代码模型来解决这个问题。
  • 关键思路
    DeepSeek-Coder使用从头开始训练的代码模型,通过填空任务和16K窗口来增强代码生成和填充,并在高质量项目级代码语料库上进行预训练。这种方法在多个基准测试中实现了最先进的性能,并超过了现有的闭源模型。
  • 其它亮点
    DeepSeek-Coder在多个基准测试中展现出最先进的性能,并超过了现有的闭源模型,而且模型的许可证允许进行研究和无限制的商业使用。论文详细介绍了实验的设计和使用的数据集,同时开源了代码。
  • 相关研究
    最近的相关研究包括Codex和GPT-3.5等闭源模型,以及其他一些开源代码模型,如CodeBERT、CodeGPT、CodeFormer等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论