Assessing the Code Clone Detection Capability of Large Language Models

简介

这项研究旨在评估两个先进的大型语言模型（LLM），即GPT-3.5和GPT-4，在代码克隆检测任务中的表现。评估包括对来自两个数据集（BigCloneBench（人工制作）和GPTCloneBench（LLM生成））的不同克隆类型和相似度级别的代码对进行测试。研究结果表明，GPT-4在所有克隆类型上均优于GPT-3.5。观察到GPT的准确性与代码相似性之间存在相关性，两个GPT模型在检测最复杂的Type-4代码克隆方面表现出低效。此外，与人类生成的代码相比，GPT模型在LLM生成的代码中识别代码克隆的性能更高。然而，它们的准确性并不令人印象深刻。这些结果强调了不断增强LLM功能的必要性，特别是在识别代码克隆和减轻其对自动生成的代码克隆的倾向方面。随着软件工程师越来越多地利用LLM-enabled代码生成和代码重构工具，这可能成为一个问题。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估GPT-3.5和GPT-4在代码克隆检测任务中的表现，以及它们在人类生成代码和LLM生成代码中的表现。
关键思路

通过评估两个LLM模型在不同类型和相似度水平的代码对上的表现，比较它们在识别代码克隆方面的准确性。发现GPT-4在所有克隆类型中都比GPT-3.5表现更好，并且在LLM生成的代码中比在人类生成的代码中表现更好。
其它亮点

实验使用了两个数据集：BigCloneBench和GPTCloneBench。结果表明，GPT-4的表现优于GPT-3.5，但两个模型都在识别最复杂的Type-4代码克隆方面表现不佳。实验结果强调了需要不断提升LLM的功能，特别是在识别代码克隆和减少自动生成代码克隆方面。
相关研究

最近的相关研究包括：《CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing》、《Deep Learning Code Fragments for Code Clone Detection》等。

Assessing the Code Clone Detection Capability of Large Language Models

提问交流

提问交流