标题:谷歌、MIT|Program Synthesis with Large Language Models(使用大型语言模型的程序合成)
推荐理由:基于大模型的程序合成在特定数据集上达到了83.8%的准确率
简介:本文探讨了当前用于通用编程语言程序合成的大型生成式语言模型的局限性。我们评估了此类模型的集合(在244M和137B参数)在两个新的基准测试中,MBPP和MathQA-Python,在小样本和微调机制。我们的基准测试旨在衡量这些模型的综合能力来自自然语言描述的简短 Python 程序。最基础的编程问题(MBPP) 数据集包含 974 个编程任务,旨在由入门级程序员解决。MathQA-Python 数据集是 MathQA 基准测试的 Python 版本,包含 23914 个问题评估模型从更复杂的文本中合成代码的能力。在两个数据集上,我们发现程序合成性能与模型大小成对数线性关系。我们最大的模型,即使没有微调在代码数据集上,带有精心设计的提示可以使用少样本学习程序合成解决MBPP中59.6% 的问题。在大多数模型尺寸下,对数据集的部分进行微调可提高性能约为10个百分点。在 MathQA-Python 数据集上,最大的微调模型达到83.8%的准确率。更进一步,我们研究了模型进行对话的能力,结合人工反馈来改进其解决方案;我们发现自然语言反馈来自与模型的初始预测相比,人类将减半错误率。此外,我们进行了错误分析以阐明这些模型的不足之处以及最难实施的程序类型合成。
下载地址:https://arxiv.org/pdf/2108.07732v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢