Benchmarking for Deep Uplift Modeling in Online Marketing

2024年06月01日
  • 简介
    在线营销对许多工业平台和商业应用至关重要,旨在通过识别特定激励(例如优惠券和奖金)的相应交付敏感群体,从而增加用户参与度和平台收入。随着工业场景中功能规模和复杂性的增加,深度提升建模(DUM)作为一种有前途的技术,吸引了学术界和工业界的增加研究,产生了各种预测模型。然而,当前的DUM仍缺乏一些标准化的基准和统一的评估协议,这限制了现有研究中实验结果的可重复性以及在这个方向上的实际价值和潜在影响。在本文中,我们为DUM提供了一个开放的基准,并以可重复和统一的方式呈现了现有模型的比较结果。为此,我们对两个代表性的工业数据集进行了广泛的实验,采用不同的预处理设置重新评估了13个现有模型。令人惊讶的是,我们的实验结果表明,在许多情况下,最近的工作与传统工作的差异比预期小。此外,我们的实验还揭示了DUM在泛化方面的局限性,特别是针对不同的预处理和测试分布。我们的基准工作使研究人员能够快速评估新模型的性能,同时合理地展示与现有模型的公平比较结果。它还为从事DUM部署时经常被忽视的考虑因素提供了有价值的见解。我们将在GitHub上提供此基准库、评估协议和实验设置。
  • 图表
  • 解决问题
    本论文旨在为深度提升建模(DUM)提供一个开放的基准,并以一种可重复和统一的方式呈现现有模型的比较结果。当前DUM仍然缺乏标准化的基准和统一的评估协议,这限制了现有研究中实验结果的可重复性以及在这个方向上的实际价值和潜在影响。
  • 关键思路
    本论文提出了一个开放的基准,通过对两个代表性的工业数据集进行广泛的实验,以不同的预处理设置重新评估了13个现有模型,并以一种可重复和统一的方式呈现了比较结果。实验结果表明,最近的工作在许多情况下与传统工作的差异较小。此外,实验还揭示了DUM在泛化方面的局限性,特别是对于不同的预处理和测试分布。
  • 其它亮点
    本论文提供了一个开放的基准,可以帮助研究人员快速评估新模型,并合理地展示与现有模型的公平比较结果。实验设计了两个代表性的工业数据集,并揭示了在部署DUM时经常被忽视的一些考虑因素。该基准库、评估协议和实验设置将在GitHub上提供。
  • 相关研究
    最近在这个领域中,还有一些相关研究。例如:1. 'Causal Inference for Uplift Modeling with Overlapping Treatment and Control Groups';2. 'Uplift Modeling with Multiple Treatments and General Response Types';3. 'Counterfactual Fairness for General Uplift Models'.
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论