Analysing the Behaviour of Tree-Based Neural Networks in Regression Tasks

2024年06月17日
  • 简介
    深度学习的领域已经广泛扩展了源代码分析的前沿,特别是通过使用抽象语法树(AST)等结构表示。虽然这些方法已经证明在分类任务中有效,但它们在回归应用中的效果,例如从源代码预测执行时间,仍然未被充分探索。本文试图解码基于树的神经网络模型在这种回归挑战环境下的行为。我们扩展了已有模型的应用-基于树的卷积神经网络(CNN)、Code2Vec和基于Transformer的方法-通过将源代码解析为AST来预测源代码的执行时间。我们的比较分析表明,虽然这些模型在代码表示方面是基准,但在回归任务中存在局限性。为了解决这些缺陷,我们提出了一种新颖的双Transformer方法,它同时作用于源代码标记和AST表示,利用交叉注意机制增强两个领域之间的可解释性。此外,我们探索了将图神经网络(GNN)适应于这个基于树的问题的可能性,理论上由于AST的图形性质,这两者具有内在的兼容性。真实世界数据集上的实证评估表明,我们的双Transformer模型优于所有其他基于树的神经网络和基于GNN的模型。此外,我们提出的双Transformer表现出了在不同数据集上的适应性和稳健性。
  • 图表
  • 解决问题
    本论文试图探索使用树形结构表示源代码进行回归分析的方法,特别是执行时间预测。与分类任务相比,这种方法在回归应用方面还不够成熟。
  • 关键思路
    论文提出了一种新的双变压器模型,同时处理源代码标记和AST表示,并利用交叉注意机制增强两个领域之间的可解释性。
  • 其它亮点
    论文比较了树形卷积神经网络(CNNs)、Code2Vec和基于Transformer的方法在执行时间预测方面的表现,并发现它们在回归任务中存在一定的局限性。作者还探索了将图神经网络(GNNs)应用于这种树形问题的适应性,并提出了一种新的双变压器模型,它在多个真实数据集上表现出色。
  • 相关研究
    最近的相关研究包括“DeepTune: 用于大规模源代码执行时间预测的神经编译器”和“TreeCaps: 树形胶囊神经网络”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论