Challenging Gradient Boosted Decision Trees with Tabular Transformers for Fraud Detection at Booking.com

2024年05月22日
  • 简介
    基于Transformer的神经网络,通过自监督学习(SSL)的支持,已经在各个领域展现了前所未有的性能。然而,相关文献表明,表格Transformer可能难以超越经典的机器学习算法,如梯度提升决策树(GBDT)。在本文中,我们旨在通过在电子商务中面临的典型任务——欺诈检测中挑战GBDT,使用表格Transformer。我们的研究还受到选择偏差问题的驱动,这在现实生活中的欺诈检测系统中经常发生。它是由生产系统影响哪些流量子集被标记所引起的。这个问题通常通过随机抽样生产数据的一小部分来解决,称为控制组。这个子集遵循生产数据的目标分布,因此通常被用于训练使用标准ML算法的分类模型。我们的方法利用Transformer的能力,通过SSL使用所有可用的数据来学习可转移的表示,使其比传统方法具有优势。此外,我们进行了大规模实验,预训练表格Transformer的大量数据实例,并在较小的目标数据集上进行微调。所提出的方法通过平均精度(AP)得分的显著较大的差距,优于经过大量调整的GBDT。预训练模型在微调数据有限时表现更加一致。此外,它们需要明显较少的标记数据,才能达到与利用整个数据集的GBDT竞争对手相当的性能。
  • 图表
  • 解决问题
    本文旨在挑战传统机器学习算法(如GBDT)在电子商务领域中欺诈检测任务上的表现,并探究使用自监督学习(SSL)的表格Transformer的优势。
  • 关键思路
    本文提出的方法利用Transformer的能力,通过SSL使用所有可用数据来学习可转移的表示,从而在小型目标数据集上实现比传统方法更好的性能。
  • 其它亮点
    本文的实验表明,预训练的Transformer在欺诈检测任务中的性能比GBDT高。预训练模型的性能比从头开始训练的模型更加稳定,并且在有限标注数据的情况下需要的标注数据更少。
  • 相关研究
    最近的相关研究包括“TabNet: Attentive Interpretable Tabular Learning”和“DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论