CoIR: A Comprehensive Benchmark for Code Information Retrieval Models

2024年07月03日
  • 简介
    尽管信息检索(IR)在各种自然语言处理任务中取得了相当大的成功,但大多数IR系统主要处理自然语言的查询和语料库,而忽略了代码检索领域。代码检索至关重要,但却鲜有人探索,现有的方法和基准不足以代表各种领域和任务中代码的多样性。为了填补这一空白,我们提出了\textbf{\name}(\textbf{Co}de \textbf{I}nformation \textbf{R}etrieval Benchmark),这是一个强大而全面的基准,专门设计用于评估代码检索能力。 \name包括\textbf{十个}精心策划的代码数据集,涵盖了\textbf{七个}不同领域中的\textbf{八个}独特的检索任务。我们首先讨论了\name和其多样的数据集组成。此外,我们使用\name评估了九种广泛使用的检索模型,发现即使使用最先进的系统,执行代码检索任务仍然存在显著困难。为了方便易用和集成到现有的研究工作流程中,\name已经被开发为一个用户友好的Python框架,可以通过pip轻松安装。它与其他流行的基准(如MTEB和BEIR)共享相同的数据模式,可实现无缝的跨基准评估。通过\name,我们旨在激发代码检索领域的研究,提供一个多功能的基准工具,鼓励进一步开发和探索代码检索系统\footnote{\url{https://github.com/CoIR-team/coir}}。
  • 图表
  • 解决问题
    论文旨在解决代码检索中的问题,即现有的信息检索系统主要处理自然语言查询和语料库,忽略了代码检索的领域。作者构建了一个全面的基准测试集CoIR,以评估代码检索系统的性能。
  • 关键思路
    论文提出了一个名为CoIR的全面基准测试集,包括10个经过精心策划的代码数据集,涵盖了七个不同领域的八种检索任务。通过使用CoIR测试集,作者评估了九种常用的检索模型,揭示了即使使用最先进的系统,执行代码检索任务仍然存在显着的困难。
  • 其它亮点
    CoIR是一个全面的基准测试集,易于使用并可与其他流行的基准测试集进行无缝交叉评估。作者开发了一个用户友好的Python框架,可以通过pip轻松安装。实验使用了多个数据集和模型,并且作者开源了代码。
  • 相关研究
    最近的相关研究主要集中在代码检索领域。例如,论文《CodeSearchNet Challenge: Evaluating the State of Semantic Code Search》提出了一个基准测试集,用于评估代码检索的语义能力。还有一些研究关注于代码嵌入和代码相似度计算。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论