TOGLL: Correct and Strong Test Oracle Generation with LLMs

简介

本研究探讨了测试神经网络模型在生成正确、多样化和强大的测试神谕方面的能力。尽管神经网络模型在软件工程任务中已经展示出了惊人的效果，包括代码生成、测试用例创建和漏洞修复，但在测试神谕生成方面缺乏大规模研究。因此，我们通过对SF110数据集上的七个代码神经网络模型进行微调，利用最有效的微调模型和提示组合，提出了一种新的基于神经网络模型的测试神谕生成方法TOGLL。为了探究TOGLL的普适性，我们在25个大型Java项目上进行了研究。除了评估正确性外，我们还评估了生成的神谕的多样性和强度。我们将结果与EvoSuite和最先进的神经网络方法TOGA进行了比较。研究结果表明，TOGLL可以产生3.8倍更多的正确断言神谕和4.9倍更多的异常神谕。此外，我们的研究结果还表明，TOGLL能够生成显著多样化的测试神谕。它可以检测到1023个EvoSuite无法检测到的唯一漏洞，比之前的最先进神经网络方法TOGA多了十倍。

图表

解决问题

测试用例生成中的测试预言问题

关键思路

使用LLMs生成强大的测试预言

其它亮点

使用7个LLMs和6个提示在SF110数据集上进行微调，提出了一种名为TOGLL的新方法，用于测试预言生成，并在25个大型Java项目上进行了测试，结果表明TOGLL可以产生更多的正确断言和异常预言，并且可以检测出更多的独特错误。

TOGLL: Correct and Strong Test Oracle Generation with LLMs

评论