On Mitigating Code LLM Hallucinations with API Documentation

2024年07月13日
  • 简介
    本研究探讨了API幻觉在各种软件工程环境中的问题。我们介绍了CloudAPIBench,这是一个新的基准,旨在测量API幻觉的发生情况。CloudAPIBench还提供了公共领域API出现频率的注释,使我们能够研究不同频率水平下的API幻觉。我们的研究结果表明,Code LLMs在低频API方面存在困难:例如,GPT-4o仅实现了38.58%的有效低频API调用。我们证明,文档增强生成(DAG)显著提高了低频API的性能(使用DAG增加到47.94%),但在使用次优检索器时会对高频API产生负面影响(39.02%的绝对下降)。为了缓解这种情况,我们建议智能触发DAG,其中我们检查API索引或利用Code LLMs的置信度分数,仅在需要时检索。我们证明了我们提出的方法增强了低频和高频API性能之间的平衡,从而产生更可靠的API调用(GPT-4o在CloudAPIBench上的绝对改进为8.20%)。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决软件工程中API幻觉的问题。作者引入了CloudAPIBench这个新的基准测试,旨在测量API幻觉的发生情况,并提供公共领域API出现频率的注释,以便在不同频率级别上研究API幻觉。
  • 关键思路
    通过文档增强生成(DAG)的方法,针对低频API提高性能,同时通过智能触发DAG的方法来提高高频API的性能,从而增强低频和高频API性能之间的平衡,提高API调用的可靠性。
  • 其它亮点
    实验结果表明,Code LLMs在低频API上表现不佳,但使用DAG可以显著提高性能。作者提出智能触发DAG的方法,从而提高低频和高频API性能之间的平衡,提高API调用的可靠性。
  • 相关研究
    近期在这个领域中,还有一些相关的研究,比如《API Usage Summarization: A Large-Scale Dataset of Code Snippets and Summaries》、《Transformer-based Code Generation for Automated Program Repair》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问