- 简介软件注释对人类理解软件至关重要,因此已经提出了许多注释生成技术。然而,我们发现对生成注释的事实准确性进行系统评估的情况很少;只有主观准确性标签。通过评估三个大型语言模型(LLM)生成的注释,我们发现即使是最佳表现的LLM,大约五分之一的注释包含可证明不准确的陈述。虽然代码-注释一致性检测技术似乎应该能够检测不准确的注释,但我们进行的实验表明它们与注释准确性没有显著的统计关系,凸显出这个问题的实质困难。为了解决这个问题,我们提出了文档测试的概念,即通过使用LLM基于文档生成测试、运行这些测试并观察它们是否通过来验证文档。此外,我们实现了我们的概念来验证Java注释。实验表明,我们的方法与注释准确性具有强大的统计关系,这在之前的技术失败的问题上取得了进展。定性评估也揭示了我们的方法在获得开发者信任方面的潜力,同时突出了我们当前实现的局限性。
-
- 图表
- 解决问题评估大型语言模型生成的代码注释的准确性,提出了文档测试的概念以解决注释准确性问题。
- 关键思路提出了文档测试的概念,使用大型语言模型生成测试用例来验证代码注释的准确性。
- 其它亮点论文发现,即使是最好的大型语言模型生成的注释中,大约五分之一的语句存在明显的不准确性。使用文档测试的方法可以有效地验证代码注释的准确性,这是之前技术所无法解决的问题。作者还开源了Java注释的验证工具,并进行了实验验证。
- 相关研究包括代码注释的自动生成技术以及注释准确性的评估方法。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流