Testing LLMs on Code Generation with Varying Levels of Prompt Specificity

简介

本文介绍了大型语言模型（LLMs）在模仿人类文本生成和处理方面所展现的无与伦比的能力。在众多受益于LLMs的应用中，自动代码生成越来越有前途。将自然语言提示转换为可执行代码的潜力，承诺在软件开发实践中带来重大变革，并为大幅减少手动编码工作和减少人为错误的可能性铺平道路。本文报告了一项研究的结果，评估了各种LLMs（如Bard，ChatGPT-3.5，ChatGPT-4和Claude-2）在生成Python编码问题方面的性能。我们着重研究了提示特定性水平对生成代码的准确性、时间效率和空间效率的影响。我们采用了104个编码问题的基准测试，每个问题都有四种类型的提示，具有不同程度的测试和特定性，以全面检查这些方面。我们的结果表明，在不同的LLMs和提示类型之间存在显着的性能差异，其关键贡献在于揭示创建准确Python函数的理想提示策略。本研究为LLM能力的进一步研究奠定了基础，并建议在自动化代码生成任务和测试驱动开发中利用LLMs的实际应用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估不同大型语言模型在自动生成Python代码方面的性能
关键思路

通过评估大型语言模型在不同程度的提示特定性方面的性能，研究如何创建准确的Python函数的最佳提示策略
其它亮点

使用104个编码问题进行全面评估，发现不同大型语言模型和提示类型之间的显著性能差异，为进一步研究大型语言模型能力奠定基础，并提出了在自动化代码生成任务和测试驱动开发中利用大型语言模型的实用建议
相关研究

最近的相关研究包括《CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing》、《Deep Code Comment Generation》、《Neural Program Synthesis from Diverse Demonstration》等

Testing LLMs on Code Generation with Varying Levels of Prompt Specificity

提问交流

提问交流