Long Code Arena: a Set of Benchmarks for Long-Context Code Models

2024年06月17日
  • 简介
    如今,代码和自然语言处理领域正在快速发展。特别是,模型在处理长上下文窗口方面变得更加出色,支持的上下文大小在过去几年中增加了数个数量级。然而,对于需要超出单个上下文文件的代码处理任务,缺乏基准测试,而最受欢迎的基准测试仅限于单个方法。通过这项工作,我们旨在通过引入Long Code Arena,一个涵盖六个需要项目范围上下文的代码处理任务的基准测试套件,来填补这一空白。这些任务涵盖了代码处理的不同方面:基于库的代码生成、CI构建修复、项目级代码完成、提交消息生成、错误定位和模块摘要。对于每个任务,我们提供了一个经过手动验证的测试数据集、一个评估套件和基于流行的LLMs的开源基线解决方案,以展示数据集的使用方法并简化其他研究人员的采用。我们在HuggingFace Spaces上发布了基准测试页面,其中包括排行榜、所有数据集的HuggingFace Hub链接以及基线的GitHub存储库链接:https://huggingface.co/spaces/JetBrains-Research/long-code-arena。
  • 图表
  • 解决问题
    论文介绍了Long Code Arena,一个包含六个需要项目级上下文的代码处理任务的基准测试套件。这篇论文试图解决的问题是当前代码处理领域缺乏超过单个文件上下文的基准测试,而现有的基准测试只涵盖单个方法。
  • 关键思路
    Long Code Arena提供了六个不同的任务,涵盖了代码处理的不同方面。为每个任务提供了手动验证的数据集、评估套件和基于流行的LLMs的开源基线解决方案。
  • 其它亮点
    Long Code Arena提供了一系列需要项目级上下文的代码处理任务,为研究人员提供了一个全面的基准测试套件。论文提供了手动验证的数据集和基线解决方案,以便其他研究人员可以轻松采用。论文还提供了HuggingFace Spaces上的基准测试页面和GitHub存储库链接。
  • 相关研究
    最近的相关研究主要集中在单个文件或单个方法的基准测试上,如Code2Seq和CodeBERT。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论