DISCO: An End-to-End Bandit Framework for Personalised Discount Allocation

简介

个性化折扣代码为电子商务中的客户关系和运营支出管理提供了强大的机制。鉴于问题的部分信息性质以及适应不断变化的商业环境的需求，赌博算法非常适合该产品领域。在这里，我们介绍了DISCO，这是一个端到端的上下文赌博框架，用于ASOS的个性化折扣代码分配。 DISCO通过将传统的汤普森抽样算法整合到整数规划中来进行调整，从而允许进行操作成本控制。由于高维动作的赌博学习通常较差，因此我们专注于构建低维动作和上下文表示，尽管如此仍能具有良好的准确性。此外，我们试图建立一个保持价格和销售之间关系的模型，其中客户在价格较低时增加购买（“负价格弹性”）。这些目标通过使用径向基函数来表示连续（即无限武装）动作空间，结合从神经网络中提取的上下文嵌入来实现。这些特征表示在汤普森抽样框架中使用以促进探索，并进一步与整数规划集成以在ASOS的客户群体中分配折扣代码。这些建模决策导致奖励模型具有（a）在类似动作之间实现池化学习的功能，（b）高度准确，包括在外推方面，以及（c）保持预期的负价格弹性。通过离线分析，我们展示了DISCO能够有效地进行探索并随着时间的推移提高其性能，尽管存在全局约束。最后，我们对DISCO进行了严格的在线A / B测试，并发现相对于传统系统，它实现了平均篮子价值的显着提高超过1％。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：论文旨在提出一种个性化折扣码分配的框架，以管理电子商务中的客户关系和操作支出。
关键思路

关键思路：论文提出了一种基于Thompson Sampling算法的DISCO框架，结合整数规划实现操作成本控制。使用径向基函数表示连续的动作空间，以及从神经网络中提取的上下文嵌入来构建低维动作和上下文表示。并通过全局约束实现探索和提高性能。
其它亮点

亮点：论文通过离线分析和在线A/B测试，证明了DISCO框架在个性化折扣码分配方面具有显著的性能提升。同时，该框架具有可扩展性和准确性，并且能够维持预期的负价格弹性。
相关研究

相关研究：最近的相关研究包括基于深度学习的个性化定价和折扣分配方法。例如，Yan等人提出了一种基于神经网络的个性化折扣分配方法。

DISCO: An End-to-End Bandit Framework for Personalised Discount Allocation

提问交流

提问交流