Assessing the Code Clone Detection Capability of Large Language Models

2024年07月02日
  • 简介
    这项研究旨在评估两个先进的大型语言模型(LLM),即GPT-3.5和GPT-4,在代码克隆检测任务中的表现。评估包括对来自两个数据集(BigCloneBench(人工制作)和GPTCloneBench(LLM生成))的不同克隆类型和相似度级别的代码对进行测试。研究结果表明,GPT-4在所有克隆类型上均优于GPT-3.5。观察到GPT的准确性与代码相似性之间存在相关性,两个GPT模型在检测最复杂的Type-4代码克隆方面表现出低效。此外,与人类生成的代码相比,GPT模型在LLM生成的代码中识别代码克隆的性能更高。然而,它们的准确性并不令人印象深刻。这些结果强调了不断增强LLM功能的必要性,特别是在识别代码克隆和减轻其对自动生成的代码克隆的倾向方面。随着软件工程师越来越多地利用LLM-enabled代码生成和代码重构工具,这可能成为一个问题。
  • 作者讲解
  • 图表
  • 解决问题
    评估GPT-3.5和GPT-4在代码克隆检测任务中的表现,以及它们在人类生成代码和LLM生成代码中的表现。
  • 关键思路
    通过评估两个LLM模型在不同类型和相似度水平的代码对上的表现,比较它们在识别代码克隆方面的准确性。发现GPT-4在所有克隆类型中都比GPT-3.5表现更好,并且在LLM生成的代码中比在人类生成的代码中表现更好。
  • 其它亮点
    实验使用了两个数据集:BigCloneBench和GPTCloneBench。结果表明,GPT-4的表现优于GPT-3.5,但两个模型都在识别最复杂的Type-4代码克隆方面表现不佳。实验结果强调了需要不断提升LLM的功能,特别是在识别代码克隆和减少自动生成代码克隆方面。
  • 相关研究
    最近的相关研究包括:《CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing》、《Deep Learning Code Fragments for Code Clone Detection》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问