CoIR: A Comprehensive Benchmark for Code Information Retrieval Models

简介

尽管信息检索（IR）在各种自然语言处理任务中取得了相当大的成功，但大多数IR系统主要处理自然语言的查询和语料库，而忽略了代码检索领域。代码检索至关重要，但却鲜有人探索，现有的方法和基准不足以代表各种领域和任务中代码的多样性。为了填补这一空白，我们提出了\textbf{\name}（\textbf{Co}de \textbf{I}nformation \textbf{R}etrieval Benchmark），这是一个强大而全面的基准，专门设计用于评估代码检索能力。 \name包括\textbf{十个}精心策划的代码数据集，涵盖了\textbf{七个}不同领域中的\textbf{八个}独特的检索任务。我们首先讨论了\name和其多样的数据集组成。此外，我们使用\name评估了九种广泛使用的检索模型，发现即使使用最先进的系统，执行代码检索任务仍然存在显著困难。为了方便易用和集成到现有的研究工作流程中，\name已经被开发为一个用户友好的Python框架，可以通过pip轻松安装。它与其他流行的基准（如MTEB和BEIR）共享相同的数据模式，可实现无缝的跨基准评估。通过\name，我们旨在激发代码检索领域的研究，提供一个多功能的基准工具，鼓励进一步开发和探索代码检索系统\footnote{\url{https://github.com/CoIR-team/coir}}。
图表
解决问题

论文旨在解决代码检索中的问题，即现有的信息检索系统主要处理自然语言查询和语料库，忽略了代码检索的领域。作者构建了一个全面的基准测试集CoIR，以评估代码检索系统的性能。
关键思路

论文提出了一个名为CoIR的全面基准测试集，包括10个经过精心策划的代码数据集，涵盖了七个不同领域的八种检索任务。通过使用CoIR测试集，作者评估了九种常用的检索模型，揭示了即使使用最先进的系统，执行代码检索任务仍然存在显着的困难。
其它亮点

CoIR是一个全面的基准测试集，易于使用并可与其他流行的基准测试集进行无缝交叉评估。作者开发了一个用户友好的Python框架，可以通过pip轻松安装。实验使用了多个数据集和模型，并且作者开源了代码。
相关研究

最近的相关研究主要集中在代码检索领域。例如，论文《CodeSearchNet Challenge: Evaluating the State of Semantic Code Search》提出了一个基准测试集，用于评估代码检索的语义能力。还有一些研究关注于代码嵌入和代码相似度计算。

CoIR: A Comprehensive Benchmark for Code Information Retrieval Models

评论