- 简介这项研究旨在评估两个先进的大型语言模型(LLM),即GPT-3.5和GPT-4,在代码克隆检测任务中的表现。评估包括对来自两个数据集(BigCloneBench(人工制作)和GPTCloneBench(LLM生成))的不同克隆类型和相似度级别的代码对进行测试。研究结果表明,GPT-4在所有克隆类型上均优于GPT-3.5。观察到GPT的准确性与代码相似性之间存在相关性,两个GPT模型在检测最复杂的Type-4代码克隆方面表现出低效。此外,与人类生成的代码相比,GPT模型在LLM生成的代码中识别代码克隆的性能更高。然而,它们的准确性并不令人印象深刻。这些结果强调了不断增强LLM功能的必要性,特别是在识别代码克隆和减轻其对自动生成的代码克隆的倾向方面。随着软件工程师越来越多地利用LLM-enabled代码生成和代码重构工具,这可能成为一个问题。
-
- 图表
- 解决问题评估GPT-3.5和GPT-4在代码克隆检测任务中的表现,以及它们在人类生成代码和LLM生成代码中的表现。
- 关键思路通过评估两个LLM模型在不同类型和相似度水平的代码对上的表现,比较它们在识别代码克隆方面的准确性。发现GPT-4在所有克隆类型中都比GPT-3.5表现更好,并且在LLM生成的代码中比在人类生成的代码中表现更好。
- 其它亮点实验使用了两个数据集:BigCloneBench和GPTCloneBench。结果表明,GPT-4的表现优于GPT-3.5,但两个模型都在识别最复杂的Type-4代码克隆方面表现不佳。实验结果强调了需要不断提升LLM的功能,特别是在识别代码克隆和减少自动生成代码克隆方面。
- 最近的相关研究包括:《CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing》、《Deep Learning Code Fragments for Code Clone Detection》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流