On Mitigating Code LLM Hallucinations with API Documentation

简介

本研究探讨了API幻觉在各种软件工程环境中的问题。我们介绍了CloudAPIBench，这是一个新的基准，旨在测量API幻觉的发生情况。CloudAPIBench还提供了公共领域API出现频率的注释，使我们能够研究不同频率水平下的API幻觉。我们的研究结果表明，Code LLMs在低频API方面存在困难：例如，GPT-4o仅实现了38.58％的有效低频API调用。我们证明，文档增强生成（DAG）显著提高了低频API的性能（使用DAG增加到47.94％），但在使用次优检索器时会对高频API产生负面影响（39.02％的绝对下降）。为了缓解这种情况，我们建议智能触发DAG，其中我们检查API索引或利用Code LLMs的置信度分数，仅在需要时检索。我们证明了我们提出的方法增强了低频和高频API性能之间的平衡，从而产生更可靠的API调用（GPT-4o在CloudAPIBench上的绝对改进为8.20％）。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决软件工程中API幻觉的问题。作者引入了CloudAPIBench这个新的基准测试，旨在测量API幻觉的发生情况，并提供公共领域API出现频率的注释，以便在不同频率级别上研究API幻觉。
关键思路

通过文档增强生成（DAG）的方法，针对低频API提高性能，同时通过智能触发DAG的方法来提高高频API的性能，从而增强低频和高频API性能之间的平衡，提高API调用的可靠性。
其它亮点

实验结果表明，Code LLMs在低频API上表现不佳，但使用DAG可以显著提高性能。作者提出智能触发DAG的方法，从而提高低频和高频API性能之间的平衡，提高API调用的可靠性。
相关研究

近期在这个领域中，还有一些相关的研究，比如《API Usage Summarization: A Large-Scale Dataset of Code Snippets and Summaries》、《Transformer-based Code Generation for Automated Program Repair》等。

On Mitigating Code LLM Hallucinations with API Documentation

提问交流

提问交流