LLM-based Test-driven Interactive Code Generation: User Study and Empirical Evaluation

向作者提问

NEW

简介

大型语言模型（LLMs）已经展现出在自然语言（NL）意图的基础上自动生成自然代码的巨大潜力，从而自动化编码的重要方面。然而，由于NL是非正式的，因此不容易检查生成的代码是否正确地满足用户意图。在本文中，我们提出了一种新的交互式工作流TiCoder，通过测试来引导意图澄清（即部分形式化），以支持生成更准确的代码建议。通过与15名程序员进行的混合方法用户研究，我们提供了一个实证评估工作流提高代码生成准确性的有效性。我们发现，使用所提出的工作流程的参与者更有可能正确评估AI生成的代码，并报告任务诱导的认知负荷显著减少。此外，我们使用一个理想化的用户反馈代理在两个Python数据集上对四种不同的最先进的LLMs进行了规模测试，测试了该工作流程的潜力。我们观察到，在5次用户交互中，两个数据集和所有LLMs的pass@1代码生成准确性的平均绝对改进为38.43％，并自动生成相应的单元测试。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决使用自然语言生成代码时，由于自然语言的非正式性，很难检查生成的代码是否正确符合用户意图的问题。作者提出了一种交互式工作流TiCoder，通过测试来引导意图澄清，从而支持生成更准确的代码建议。
关键思路

TiCoder工作流可以通过测试来引导意图澄清，从而支持生成更准确的代码建议。与当前领域的研究相比，该论文的创新点在于提出了一种交互式工作流，通过测试来引导意图澄清，从而提高代码生成的准确性。
其它亮点

本论文通过15名程序员的混合方法用户研究，实证评估了工作流的有效性，发现使用该工作流的参与者更有可能正确评估AI生成的代码，并报告了显著较少的任务诱发的认知负荷。此外，作者还在两个Python数据集上使用了四种不同的最新LMM，使用理想化的用户反馈测试了工作流的潜力，并观察到了平均绝对提高了38.43%的一次通过率@1的代码生成准确性，并自动生成了伴随的单元测试。
相关研究

最近在这个领域中，还有一些相关研究，如CodeBERT、GPT-3等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问