Identifying Inaccurate Descriptions in LLM-generated Code Comments via Test Execution

简介

软件注释对人类理解软件至关重要，因此已经提出了许多注释生成技术。然而，我们发现对生成注释的事实准确性进行系统评估的情况很少；只有主观准确性标签。通过评估三个大型语言模型（LLM）生成的注释，我们发现即使是最佳表现的LLM，大约五分之一的注释包含可证明不准确的陈述。虽然代码-注释一致性检测技术似乎应该能够检测不准确的注释，但我们进行的实验表明它们与注释准确性没有显著的统计关系，凸显出这个问题的实质困难。为了解决这个问题，我们提出了文档测试的概念，即通过使用LLM基于文档生成测试、运行这些测试并观察它们是否通过来验证文档。此外，我们实现了我们的概念来验证Java注释。实验表明，我们的方法与注释准确性具有强大的统计关系，这在之前的技术失败的问题上取得了进展。定性评估也揭示了我们的方法在获得开发者信任方面的潜力，同时突出了我们当前实现的局限性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估大型语言模型生成的代码注释的准确性，提出了文档测试的概念以解决注释准确性问题。
关键思路

提出了文档测试的概念，使用大型语言模型生成测试用例来验证代码注释的准确性。
其它亮点

论文发现，即使是最好的大型语言模型生成的注释中，大约五分之一的语句存在明显的不准确性。使用文档测试的方法可以有效地验证代码注释的准确性，这是之前技术所无法解决的问题。作者还开源了Java注释的验证工具，并进行了实验验证。
相关研究

相关研究包括代码注释的自动生成技术以及注释准确性的评估方法。

Identifying Inaccurate Descriptions in LLM-generated Code Comments via Test Execution

提问交流

提问交流