- 简介好的摘要在程序理解中通常非常有用。虽然简洁、流畅、相关的摘要可以帮助理解,但是需要人类付出大量的努力才能产生。通常情况下,软件项目中没有好的摘要,这使得维护更加困难。已经有大量的研究使用大型语言模型(LLMs)基于自动化的AI方法来生成代码摘要;也有很多工作致力于衡量此类摘要方法的性能,特别关注这些AI生成的摘要与人类可能产生的摘要的相似程度。已经提出并通过人类受试研究评估了诸如BERTScore和BLEU等措施。然而,LLMs经常会出错并生成与人类所说的完全不同的内容。给定一个LLM生成的代码摘要,是否有一种方法来判断它是否足够类似于人类生成的摘要?在本文中,我们将这个问题作为一个校准问题进行研究:给定一个LLM的摘要,我们是否可以计算一个置信度量,这是一个很好的指示,表明这个摘要是否足够类似于在这种情况下人类可能会产生的摘要?我们使用几种LLMs,针对几种语言,在几种不同的设置下研究了这个问题。我们提出了一种方法,可以提供良好的置信度预测,以评估与人类摘要的相似程度。
- 图表
- 解决问题如何衡量由大型语言模型生成的代码摘要与人类生成的摘要之间的相似度?
- 关键思路提出了一种校准方法,通过计算置信度来评估大型语言模型生成的代码摘要与人类生成的摘要之间的相似度。
- 其它亮点使用了多种大型语言模型,在多种语言和不同环境下进行了实验。提出的方法能够提供良好的置信度预测,评估生成的代码摘要与人类生成的摘要之间的相似度。
- 最近的相关研究包括使用大型语言模型生成代码摘要的方法和评估这些方法的性能的工作,以及使用BERTScore和BLEU等指标进行评估的研究。


提问交流