- 简介Traffic allocation是一种通过在搜索后阶段调整产品位置来重新分配自然流量的过程,旨在有效促进商家增长,精确满足客户需求,并确保电子商务平台各方利益的最大化。现有的基于学习排序的方法忽略了流量分配的长期价值,而强化学习方法则面临平衡多个目标和在真实环境中冷启动的困难。为解决上述问题,本文提出了一种多目标深度强化学习框架,包括多目标Q学习(MOQ)、基于交叉熵方法(CEM)的决策融合算法(DFM)和渐进式数据增强系统(PDA)。具体而言,MOQ构建了集成的强化学习模型,每个模型专注于一个目标,例如点击率、转化率等。这些模型分别将物品的位置作为动作确定,旨在从个体角度估计多个目标的长期价值。然后,我们采用DFM动态调整目标之间的权重,以最大化长期价值,解决电子商务场景中目标偏好的时间动态性。最初,PDA使用离线日志的模拟数据训练MOQ。随着实验的进行,它策略性地整合了真实用户交互数据,最终替换了模拟数据集,以减轻分布偏移和冷启动问题。在真实的在线电子商务系统上进行的实验结果表明,MODRL-TA有显著的改进,我们已成功将其部署在一个电子商务搜索平台上。
-
- 图表
- 解决问题解决问题:论文试图通过多目标深度强化学习框架解决电商平台中的流量分配问题,实现商家增长、满足顾客需求和各方利益最大化。
- 关键思路关键思路:采用多目标Q学习构建强化学习模型,通过决策融合算法和渐进式数据增强系统动态调整多目标权重,解决电商平台中的流量分配问题。
- 其它亮点其他亮点:论文使用了决策融合算法和渐进式数据增强系统解决了多目标权重动态调整和冷启动问题,实验结果表明该方法在电商平台中有效,已经成功应用于实际电商搜索平台。
- 相关研究:近期的相关研究包括基于学习排序的方法和强化学习方法,例如《Learning to Rank: From Pairwise Approach to Listwise Approach》和《Deep Reinforcement Learning for List-wise Recommendations》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流