论文介绍了Codex,一个在GitHub的公开代码上微调的GPT语言模型,并研究了它的Python代码编写能力。Codex的一个独特的生产版本为GitHub Copilot提供动力。在HumanEval上,发布了一个新的评估集,用于衡量从文档串合成程序的功能正确性,模型解决了28.8%的问题,而GPT-3解决了0%,GPT-J解决了11.4%。此外,作者发现,从模型中反复取样是一个令人惊讶的有效策略,可以产生对困难提示的工作解决方案。使用这种方法,在每个问题100个样本的情况下解决了70.2%的问题。对模型的仔细调查揭示了它的局限性,包括在描述长操作链的文件串和将操作与变量绑定方面的困难。最后,论文讨论了部署强大的代码生成技术的潜在的更广泛的影响,包括安全和经济。

内容中包含的图片若涉及版权问题,请及时与我们联系删除