代码智能新基准数据集CodeXGLUE来袭，多角度衡量模型优劣

背景：代码智能（code intelligence）目的是让计算机具备理解和生成代码的能力，并利用编程语言知识和上下文进行推理，支持代码检索、补全、翻译、纠错、问答等场景。以深度学习为代表的人工智能算法，近年来在理解自然语言上取得了飞跃式的突破，代码智能也因此获得了越来越多的关注。该领域一旦有突破，将大幅度推动 AI 在软件开发场景的落地。一直以来，微软秉承为开发者赋能的使命。在2020年 Build 大会上，微软首席执行官 Satya Nadella 表示，“GitHub 拥有超过5000万用户，Visual Studio Code 是最受开发者欢迎的代码编辑器。微软将为开发者打造最完整的开发工具链，结合 GitHub、Visual Studio 和 Azure，帮助开发者实现从想法到代码、从代码到云的转化。”同时，微软在自然语言理解和深度学习领域有着深厚的积累，不只有大数据、大模型、强算力支撑着模型的训练，还有丰富的模型部署及优化经验，帮助人工智能算法真正落地到产品中。

基准数据（Benchmark Dataset）对一个领域的发展至关重要。例如，ImageNet（斯坦福大学）极大地推动了计算机视觉领域的发展，类似包含多种任务的 GLUE（纽约大学）和 XGLUE（https://microsoft.github.io/XGLUE/，微软亚洲研究院自然语言计算组）数据集在自然语言处理领域也产生了非常深远的影响。近年来，统计机器学习算法，尤其是深度学习算法在很多代码智能任务（如代码检索、代码补全、代码纠错）上都取得了不错的进展，但是，代码智能领域仍缺少一个能覆盖多种任务的基准数据，以便从不同角度衡量模型的优劣。

近期，微软亚洲研究院（自然语言计算组）联合 Visual Studio 和必应搜索发布了代码智能领域首个大规模多任务的新基准——CodeXGLUE（https://github.com/microsoft/CodeXGLUE）。该基准可覆盖 code-code、code-text、text-code、text-text 四个类别，包含10个任务及14个数据集，具体有：代码克隆检测、代码缺陷检测、代码完形填空、代码补全、代码纠错、代码翻译、代码检索、代码生成、代码注释生成、代码文档翻译十项任务。其中，有自建数据集，也有在业界已有影响力的数据集。具体来说，CodeXGLUE 中包含如下十项任务：

代码克隆检测（Clone Detection）。该任务是为了检测代码与代码之间的语义相似度，包含两个外部公开数据集，但任务定义稍有不同。在第一个数据集中，给定两个代码作为输入，要求做0/1二元分类，1表示两段代码语义相同，0表示两段代码语义不同。在第二个数据集中，则给定一段代码作为输入，任务是从给定的代码库中检索与输入代码语义相同的代码。
代码缺陷检测（Defect Detection）。该任务是检测一段代码是否包含可以导致软件系统受到攻击的不可靠代码，例如资源泄露、UAF 漏洞和 DoS 攻击等。该任务中使用了外部公开数据集。
代码完形填空（Cloze Test）。先给定一段代码，但代码中的部分内容被掩盖住，该任务要求预测出被掩盖的代码。研究员们将该任务定义为多项选择题的形式，并构建了两个数据集。在第一个数据集中，被掩盖住的代码可以来自于代码中的任意字符；在第二个数据集中，则试图更有针对性地测试系统对代码 max、min 函数的理解能力。
代码补全（Code Completion），也就是给定已经写好的部分代码。该任务能够自动预测出后续的代码，具体包含两个设置，分别是词汇级别（Token-level）和行级别（Line-level）的补全。顾名思义，前者的任务是补全下一个词汇，而后者的任务是补全一整行代码。词汇级任务使用了两个被外部广泛使用的数据。行级别的任务则是在词汇级别任务的数据上自动构建的数据。
代码翻译（Code Translation）。该任务是把代码从一种编程语言翻译到另一种编程语言。研究员们构建了一个 Java 到 C# 的代码翻译数据集。
代码检索（Code Search）。该任务是为了检测自然语言与代码之间的语义相似度，包含两个数据集，具体定义稍有不同：在第一个数据集中，给定一个自然语言作为输入，任务是从给定代码库中检索与输入自然语言语义最相近的代码，研究人员为该数据新构建了一个测试集，用来更好地测试系统的深层语义理解能力。在第二个数据集中，给定自然语言-代码对作为输入，要求系统做0/1二元分类，1表示语义相似，0表示语义不相似，研究员们同样为该任务构造了新的测试数据集，测试数据的自然语言来自必应搜索引擎，可以更好地反应真实用户的查询习惯。
代码纠错（Code Refinement）。给定一段有 bug 或者复杂的代码作为输入，该任务要求生成被优化后的代码。该任务中使用了一个外部公开的数据集。
代码生成（Text-to-code Generation）。给定自然语言注释作为输入，该任务要求自动生成函数的源代码。该任务中使用了外部的公开数据集。
代码注释生成（Code Summarization）。给定一段函数代码作为输入，该任务要求自动生成对应的自然语言注释。该任务中使用了外部公开数据集。
文档翻译（Documentation Translation）。该任务的目的是自动将代码文档从一种自然语言翻译到另一种自然语言，如从英文翻译到中文。该任务中构建了新的数据集。

CodeXGLUE 发布在 GitHub 上，参赛者可首先通过 Git Clone 命令下载全部资源。最外层目录对应了四个任务分类，即 Code-code、 Code-text、Text-code 和 Text-text。研究员们为每个任务和数据集都创建了子文件夹，其中包括数据、代码、评测脚本以及说明文档。对于来自外部的公开数据集，则提供了数据下载的脚本；同时，对于需要做预处理的部分数据，也提供了预处理的脚本。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

代码智能新基准数据集CodeXGLUE来袭，多角度衡量模型优劣

评论列表

评论