Analysing the Behaviour of Tree-Based Neural Networks in Regression Tasks

简介

深度学习的领域已经广泛扩展了源代码分析的前沿，特别是通过使用抽象语法树（AST）等结构表示。虽然这些方法已经证明在分类任务中有效，但它们在回归应用中的效果，例如从源代码预测执行时间，仍然未被充分探索。本文试图解码基于树的神经网络模型在这种回归挑战环境下的行为。我们扩展了已有模型的应用-基于树的卷积神经网络（CNN）、Code2Vec和基于Transformer的方法-通过将源代码解析为AST来预测源代码的执行时间。我们的比较分析表明，虽然这些模型在代码表示方面是基准，但在回归任务中存在局限性。为了解决这些缺陷，我们提出了一种新颖的双Transformer方法，它同时作用于源代码标记和AST表示，利用交叉注意机制增强两个领域之间的可解释性。此外，我们探索了将图神经网络（GNN）适应于这个基于树的问题的可能性，理论上由于AST的图形性质，这两者具有内在的兼容性。真实世界数据集上的实证评估表明，我们的双Transformer模型优于所有其他基于树的神经网络和基于GNN的模型。此外，我们提出的双Transformer表现出了在不同数据集上的适应性和稳健性。
图表
解决问题

本论文试图探索使用树形结构表示源代码进行回归分析的方法，特别是执行时间预测。与分类任务相比，这种方法在回归应用方面还不够成熟。
关键思路

论文提出了一种新的双变压器模型，同时处理源代码标记和AST表示，并利用交叉注意机制增强两个领域之间的可解释性。
其它亮点

论文比较了树形卷积神经网络(CNNs)、Code2Vec和基于Transformer的方法在执行时间预测方面的表现，并发现它们在回归任务中存在一定的局限性。作者还探索了将图神经网络(GNNs)应用于这种树形问题的适应性，并提出了一种新的双变压器模型，它在多个真实数据集上表现出色。
相关研究

最近的相关研究包括“DeepTune: 用于大规模源代码执行时间预测的神经编译器”和“TreeCaps: 树形胶囊神经网络”。

Analysing the Behaviour of Tree-Based Neural Networks in Regression Tasks

评论