Revisiting Code Similarity Evaluation with Abstract Syntax Tree Edit Distance

简介

本文重新审视了近期的代码相似性评估指标，特别关注在不同编程语言中应用抽象语法树（AST）编辑距离的应用。我们特别探讨了这些指标的实用性，并将它们与传统的序列相似性指标进行了比较。我们的实验展示了AST编辑距离在捕捉复杂代码结构方面的有效性，并揭示了与已有指标的高度相关性。此外，我们比较了AST编辑距离和基于提示的GPT相似度得分与BLEU分数、执行匹配和Jaccard相似度之间的优缺点。我们提出、优化并发布了一种适用于所有测试语言的可适应指标，代表了Tree Similarity of Edit Distance（TSED）的增强版本。
图表
解决问题

本论文旨在重新审视近期的代码相似度评估度量方法，特别关注应用于不同编程语言的抽象语法树（AST）编辑距离，并探索这些度量方法的实用性和与传统序列相似度度量方法的比较。
关键思路

本论文的关键思路是通过应用AST编辑距离来捕捉复杂的代码结构，与已有的度量方法存在高度相关性，并提出了一种可适用于所有测试语言的改进版本的树编辑距离度量方法。
其它亮点

论文通过实验展示了AST编辑距离在捕捉复杂代码结构方面的有效性，并与BLEU分数、执行匹配和Jaccard相似度等进行了比较。论文提出的度量方法在所有测试语言中都表现出了有效性，并已进行了优化和发布。论文也探讨了AST编辑距离和基于提示的GPT相似度得分的优缺点。
相关研究

最近在这个领域中，还有一些相关的研究，如“Code BERT: A Pre-Trained Model for Programming and Natural Language Processing”和“Neural Code Comprehension: A Systematic Review”等。

Revisiting Code Similarity Evaluation with Abstract Syntax Tree Edit Distance

评论