- 简介本研究探讨了API幻觉在各种软件工程环境中的问题。我们介绍了CloudAPIBench,这是一个新的基准,旨在测量API幻觉的发生情况。CloudAPIBench还提供了公共领域API出现频率的注释,使我们能够研究不同频率水平下的API幻觉。我们的研究结果表明,Code LLMs在低频API方面存在困难:例如,GPT-4o仅实现了38.58%的有效低频API调用。我们证明,文档增强生成(DAG)显著提高了低频API的性能(使用DAG增加到47.94%),但在使用次优检索器时会对高频API产生负面影响(39.02%的绝对下降)。为了缓解这种情况,我们建议智能触发DAG,其中我们检查API索引或利用Code LLMs的置信度分数,仅在需要时检索。我们证明了我们提出的方法增强了低频和高频API性能之间的平衡,从而产生更可靠的API调用(GPT-4o在CloudAPIBench上的绝对改进为8.20%)。
-
- 图表
- 解决问题本文旨在解决软件工程中API幻觉的问题。作者引入了CloudAPIBench这个新的基准测试,旨在测量API幻觉的发生情况,并提供公共领域API出现频率的注释,以便在不同频率级别上研究API幻觉。
- 关键思路通过文档增强生成(DAG)的方法,针对低频API提高性能,同时通过智能触发DAG的方法来提高高频API的性能,从而增强低频和高频API性能之间的平衡,提高API调用的可靠性。
- 其它亮点实验结果表明,Code LLMs在低频API上表现不佳,但使用DAG可以显著提高性能。作者提出智能触发DAG的方法,从而提高低频和高频API性能之间的平衡,提高API调用的可靠性。
- 近期在这个领域中,还有一些相关的研究,比如《API Usage Summarization: A Large-Scale Dataset of Code Snippets and Summaries》、《Transformer-based Code Generation for Automated Program Repair》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流