DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

Daya Guo ,
Qihao Zhu ,
Dejian Yang ,
Zhenda Xie ,
Kai Dong ,
Wentao Zhang ,
Guanting Chen ,
Xiao Bi ,
Y. Wu ,
Y. K. Li ,
Fuli Luo ,
Yingfei Xiong ,
Wenfeng Liang
2024年01月25日
  • 简介
    大型语言模型的快速发展彻底改变了软件开发中的代码智能。然而,封闭源模型的主导地位限制了广泛的研究和发展。为了解决这个问题,我们介绍了DeepSeek-Coder系列,这是一系列开源代码模型,大小从1.3B到33B不等,从头开始训练了2万亿个标记。这些模型是在高质量的项目级代码语料库上进行预训练的,并采用了一个16K窗口的填空任务来增强代码生成和填充。我们广泛的评估表明,DeepSeek-Coder不仅在多个基准测试中实现了开源代码模型的最先进性能,而且还超过了现有的封闭源模型,如Codex和GPT-3.5。此外,DeepSeek-Coder模型采用宽松许可证,允许进行研究和无限制的商业使用。
  • 图表
  • 解决问题
    DeepSeek-Coder系列旨在解决目前封闭式代码模型限制了广泛研究和开发的问题,提供一系列开源代码模型,并在多个基准测试中实现最先进的性能。
  • 关键思路
    DeepSeek-Coder系列采用从头开始训练的方式,使用高质量的项目级代码语料库进行预训练,并采用16K窗口的填空任务来增强代码生成和填充。论文通过大量的实验证明,DeepSeek-Coder不仅在多个基准测试中实现了开源代码模型的最先进性能,而且还超越了现有的封闭式模型。
  • 其它亮点
    DeepSeek-Coder系列的模型大小从1.3B到33B不等,使用了2万亿个标记进行训练。模型采用的填空任务和预训练语料库都是高质量的。论文还提供了开源代码模型和许可证,可以进行研究和无限制的商业使用。
  • 相关研究
    与此相关的最新研究包括Codex和GPT-3.5等封闭式代码模型,以及其他开源代码模型,如CodeBERT和GraphCodeBERT。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论