- 简介大型语言模型(LLMs)已经展现出在自然语言(NL)意图的基础上自动生成自然代码的巨大潜力,从而自动化编码的重要方面。然而,由于NL是非正式的,因此不容易检查生成的代码是否正确地满足用户意图。在本文中,我们提出了一种新的交互式工作流TiCoder,通过测试来引导意图澄清(即部分形式化),以支持生成更准确的代码建议。通过与15名程序员进行的混合方法用户研究,我们提供了一个实证评估工作流提高代码生成准确性的有效性。我们发现,使用所提出的工作流程的参与者更有可能正确评估AI生成的代码,并报告任务诱导的认知负荷显著减少。此外,我们使用一个理想化的用户反馈代理在两个Python数据集上对四种不同的最先进的LLMs进行了规模测试,测试了该工作流程的潜力。我们观察到,在5次用户交互中,两个数据集和所有LLMs的pass@1代码生成准确性的平均绝对改进为38.43%,并自动生成相应的单元测试。
- 图表
- 解决问题本论文旨在解决使用自然语言生成代码时,由于自然语言的非正式性,很难检查生成的代码是否正确符合用户意图的问题。作者提出了一种交互式工作流TiCoder,通过测试来引导意图澄清,从而支持生成更准确的代码建议。
- 关键思路TiCoder工作流可以通过测试来引导意图澄清,从而支持生成更准确的代码建议。与当前领域的研究相比,该论文的创新点在于提出了一种交互式工作流,通过测试来引导意图澄清,从而提高代码生成的准确性。
- 其它亮点本论文通过15名程序员的混合方法用户研究,实证评估了工作流的有效性,发现使用该工作流的参与者更有可能正确评估AI生成的代码,并报告了显著较少的任务诱发的认知负荷。此外,作者还在两个Python数据集上使用了四种不同的最新LMM,使用理想化的用户反馈测试了工作流的潜力,并观察到了平均绝对提高了38.43%的一次通过率@1的代码生成准确性,并自动生成了伴随的单元测试。
- 最近在这个领域中,还有一些相关研究,如CodeBERT、GPT-3等。
沙发等你来抢
去评论
评论
沙发等你来抢