- 简介大型语言模型(LLM)正越来越多地融入软件开发流程中,但其在结构化、以规范驱动的开发过程中的行为仍不明确。本文提出了一项基于CURRANTE工具的实证研究设计;CURRANTE是一个Visual Studio Code扩展,支持人在回路中参与的LLM辅助代码生成工作流。该工具引导开发者依次经历三个阶段——“规范”、“测试”和“函数”,使其能够定义需求、生成并完善测试套件,并最终编写出通过这些测试的函数。参与者将使用该工具解决来自LiveCodeBench数据集中中等难度的编程问题,同时系统会记录细粒度的交互日志、有效性指标(如通过率、全部通过完成率)、效率指标(如首次通过所需时间)以及迭代行为。本研究旨在分析人类在规范制定和测试完善环节中的干预如何影响LLM生成代码的质量与演化过程。研究结果将为下一代开发环境的设计提供实证依据,推动人类思维与模型驱动代码生成之间的有效协同。
-
- 图表
- 解决问题论文试图解决大型语言模型(LLMs)在结构化、基于规范的软件开发流程中行为不明确的问题,特别是人类在需求和测试阶段的干预如何影响LLM生成代码的质量与效率。这虽然是一个日益重要的问题,但尚未被系统性地实证研究,因此具有新颖性。
- 关键思路提出并实证评估CURRANTE——一个集成于VS Code的人机协同开发框架,通过 Specification-Tests-Function 三阶段流程,引导开发者先定义需求、再构建和优化测试用例,最后生成符合测试的函数代码。其关键创新在于将人类推理嵌入到LLM代码生成的关键路径中,并量化各阶段干预对最终结果的影响。
- 其它亮点研究设计严谨,采用细粒度交互日志记录,衡量通过率、全通过完成率、时间效率和迭代行为等指标;使用中等难度的LiveCodeBench数据集作为任务源,提升结果的可比性与实用性;工具已实现为开源VSC扩展,具备可复现性和实际应用潜力;未来可深入探索不同抽象层级的规范表达方式、测试反馈的最优形式以及人机协作的认知负荷优化。
- 1. Human-in-the-loop Code Generation with Large Language Models: A Study on Developer Interaction Patterns 2. Test-Time Scaling for Program Synthesis with LLMs 3. The Role of Specifications in Guiding Neural Code Generation 4. LiveCodeBench: A Benchmark for Evaluating Code Generation in Realistic Programming Scenarios 5. Interactive Program Synthesis via Test-Driven Prompting
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流