CodeJudge-Eval: Can Large Language Models be Good Judges in Code Understanding?

简介

最近大型语言模型（LLMs）的进展展示了令人印象深刻的代码生成能力，主要是通过语言到代码基准测试进行评估。然而，这些基准测试可能无法完全捕捉模型的代码理解能力。我们介绍了CodeJudge-Eval（CJ-Eval），这是一个新颖的基准测试，旨在从代码判断的角度而不是代码生成来评估LLMs的代码理解能力。CJ-Eval挑战模型确定提供的代码解决方案的正确性，包括各种错误类型和编译问题。通过利用多样化的问题和细粒度的判断系统，CJ-Eval解决了传统基准测试的局限性，包括可能的解决方案记忆。对12个知名的LLMs在CJ-Eval上的评估表明，即使是最先进的模型也会遇到困难，突显了这个基准测试探究模型代码理解能力的能力。我们的基准测试将在\url{https://github.com/CodeLLM-Research/CodeJudge-Eval}上提供。
图表
解决问题

本论文旨在解决现有代码理解能力评估方法的局限性，提出了一种新的基于代码判断而非代码生成的评估方法CJ-Eval，用于评估大型语言模型的代码理解能力。
关键思路

CJ-Eval通过提供代码解决方案并要求模型确定其正确性的方式来评估模型的代码理解能力，包括各种错误类型和编译问题。通过使用多样化的问题和细粒度的判断系统，CJ-Eval解决了传统基准测试的局限性，包括可能出现的解决方案记忆。
其它亮点

论文使用了一种新的基于代码判断的评估方法CJ-Eval，展示了其对评估大型语言模型的代码理解能力的有效性。实验结果表明，即使是最先进的模型也存在困难，这凸显了CJ-Eval探索模型代码理解能力的能力。论文的贡献是提出了一个新的评估方法，可以帮助研究人员更好地评估大型语言模型的代码理解能力。论文提供的基准测试将在GitHub上公开。
相关研究

在最近的研究中，也有一些关于大型语言模型的代码理解能力的评估方法的研究，如CodeXGLUE、CoDesc、CoCo等。

CodeJudge-Eval: Can Large Language Models be Good Judges in Code Understanding?

评论