RepoHyper: Better Context Retrieval Is All You Need for Repository-Level Code Completion

简介

Code Large Language Models（CodeLLMs）在代码补全任务中表现出了令人印象深刻的熟练度。然而，它们经常无法完全理解项目存储库的广泛上下文，例如相关文件和类层次结构的复杂性，这可能导致不太精确的补全。为了克服这些限制，我们提出了RepoHyper，这是一个多方面的框架，旨在解决与存储库级代码补全相关的复杂挑战。RepoHyper的核心是Repo-level Semantic Graph（RSG），这是一种新颖的语义图结构，封装了代码存储库的广泛上下文。此外，RepoHyper利用了扩展和细化检索方法，包括应用于RSG的图扩展和链接预测算法，从而实现了相关代码片段的有效检索和优先级排序。我们的评估表明，与几个强基线相比，RepoHyper在存储库级代码补全方面明显优于现有技术，在各种数据集上展示了增强的准确性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

RepoHyper旨在解决代码仓库级别的代码自动补全问题，即如何在理解代码仓库的上下文的情况下提供更准确的代码补全建议。
关键思路

RepoHyper的关键思路是使用Repo-level Semantic Graph（RSG）来表示代码仓库的语义信息，并利用扩展和细化的检索方法来检索和优先考虑相关代码片段。
其它亮点

RepoHyper在多个数据集上的实验表明，相比于其他技术，它具有更高的代码补全准确性。同时，RepoHyper还开发了一个新的语义图结构RSG，并使用了扩展和细化的检索方法，包括应用于RSG的图扩展和链接预测算法。
相关研究

在最近的相关研究中，也有一些关于代码自动补全的工作，例如CodeLLMs。

RepoHyper: Better Context Retrieval Is All You Need for Repository-Level Code Completion

提问交流

提问交流