【标题】ResAct: Reinforcing Long-term Engagement in Sequential Recommendation with Residual Actor
【作者团队】Wanqi Xue, Qingpeng Cai, Ruohan Zhan, Dong Zheng, Peng Jiang, Bo An
【发表日期】2022.6.1
【论文链接】https://arxiv.org/pdf/2206.02620.pdf
【推荐理由】强化学习(RL)被广泛认为是优化长期参与顺序推荐的有前途的框架。然而,由于昂贵的在线交互,RL 算法在优化长期参与时很难执行状态-动作值估计、探索和特征提取。本文提出了 ResAct,它寻求一种接近但优于在线服务的策略。能够在学习到的策略附近收集足够的数据,从而可以正确估计状态-动作值,而无需进行在线探索。由于策略空间巨大,很难直接优化该策略。相反,ResAct 通过首先重建在线行为然后改进它来解决它。本文的主要贡献有四方面。首先,本文设计了一个生成模型,该模型通过对多个动作估计器进行采样来重建在线服务策略的行为。其次,本文设计了一种有效的学习范式来训练可以输出残差以改进动作的残差参与者。第三,本文使用两个信息理论正则化器促进特征的提取,以确认特征的表达性和简洁性。第四,广泛的实验证明本文的方法在各种长期参与优化任务中显著优于最先进的基线。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢