Understanding Specification-Driven Code Generation with LLMs: An Empirical Study Design

向作者提问

NEW

简介

大型语言模型（LLM）正越来越多地融入软件开发流程中，但其在结构化、以规范驱动的开发过程中的行为仍不明确。本文提出了一项基于CURRANTE工具的实证研究设计；CURRANTE是一个Visual Studio Code扩展，支持人在回路中参与的LLM辅助代码生成工作流。该工具引导开发者依次经历三个阶段——“规范”、“测试”和“函数”，使其能够定义需求、生成并完善测试套件，并最终编写出通过这些测试的函数。参与者将使用该工具解决来自LiveCodeBench数据集中中等难度的编程问题，同时系统会记录细粒度的交互日志、有效性指标（如通过率、全部通过完成率）、效率指标（如首次通过所需时间）以及迭代行为。本研究旨在分析人类在规范制定和测试完善环节中的干预如何影响LLM生成代码的质量与演化过程。研究结果将为下一代开发环境的设计提供实证依据，推动人类思维与模型驱动代码生成之间的有效协同。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大型语言模型（LLMs）在结构化、基于规范的软件开发流程中行为不明确的问题，特别是人类在需求和测试阶段的干预如何影响LLM生成代码的质量与效率。这虽然是一个日益重要的问题，但尚未被系统性地实证研究，因此具有新颖性。
关键思路

提出并实证评估CURRANTE——一个集成于VS Code的人机协同开发框架，通过 Specification-Tests-Function 三阶段流程，引导开发者先定义需求、再构建和优化测试用例，最后生成符合测试的函数代码。其关键创新在于将人类推理嵌入到LLM代码生成的关键路径中，并量化各阶段干预对最终结果的影响。
其它亮点

研究设计严谨，采用细粒度交互日志记录，衡量通过率、全通过完成率、时间效率和迭代行为等指标；使用中等难度的LiveCodeBench数据集作为任务源，提升结果的可比性与实用性；工具已实现为开源VSC扩展，具备可复现性和实际应用潜力；未来可深入探索不同抽象层级的规范表达方式、测试反馈的最优形式以及人机协作的认知负荷优化。
相关研究

1. Human-in-the-loop Code Generation with Large Language Models: A Study on Developer Interaction Patterns 2. Test-Time Scaling for Program Synthesis with LLMs 3. The Role of Specifications in Guiding Neural Code Generation 4. LiveCodeBench: A Benchmark for Evaluating Code Generation in Realistic Programming Scenarios 5. Interactive Program Synthesis via Test-Driven Prompting

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问