Assured LLM-Based Software Engineering

简介

本文探讨以下问题：如何利用大型语言模型（LLM）在不需要人类干预的情况下改进代码，同时确保改进后的代码不会退化原始代码的性质，且改进的方式可以被验证和测量？为了回答这个问题，我们提倡“保证LLMSE（基于大型语言模型的软件工程）”方法，这是一种受遗传改进启发的生成和测试方法。保证LLMSE应用一系列语义过滤器，丢弃未满足这两个保证的代码，从而克服了LLM易于产生幻觉的潜在问题。这使得我们可以独立于任何人类生成代码，人类只扮演最终代码评审人的角色，就像他们评审其他人工生成的代码一样。本文是Mark Harman在2024年4月15日葡萄牙里斯本举行的“神经软件工程的可解释性、鲁棒性和基准测试国际研讨会”上的主题演讲内容概述。
图表
解决问题

如何使用大型语言模型（LLMs）在不依赖人类的情况下改进代码，同时确保改进的代码不会影响原始代码的属性，并且改进是可验证和可衡量的？
关键思路

提出了一种名为Assured LLM-Based Software Engineering的方法，该方法采用生成和测试方法，通过一系列语义过滤器来丢弃不符合双重保证的代码，从而使用LLMs生成代码并独立于任何人类。最终的代码评审仅由人类完成。
其它亮点

该方法通过解决LLMs的幻觉倾向来克服了潜在问题，并提供了一种生成代码的方法，该方法比其他人工工程师生成的代码更快，更准确。实验使用了多个数据集，并且提供了开源代码。值得进一步研究的工作包括如何应用该方法于更广泛的软件工程领域中。
相关研究

最近的相关研究包括：1.《Genetic Improvement of Software》；2.《Deep Parameter Optimisation》；3.《Neural Program Synthesis》。

Assured LLM-Based Software Engineering

评论