- 简介在推荐系统应用的领域中,强化学习(RL)最近已经成为一种强大的工具,主要是由于其在优化长期回报方面的熟练程度。然而,它在学习过程中存在不稳定性,这源于引导、离线训练和函数逼近之间复杂的相互作用。此外,在多重奖励推荐场景中,设计适当的奖励设置以协调各种任务的内部动态非常复杂。为了应对这些挑战,我们介绍了DT4IER,一种基于先进的决策变换器的推荐模型,它不仅提高了推荐的有效性,而且实现了即时用户参与和长期保留之间的和谐平衡。DT4IER应用了一种创新的多重奖励设计,熟练地平衡了短期和长期奖励与用户特定属性,这些属性有助于增强奖励序列的上下文丰富性,确保更加明智和个性化的推荐过程。为了增强其预测能力,DT4IER采用了一个高维编码器,巧妙地设计出以识别和利用不同任务之间的复杂相互关系。此外,我们在行动嵌入预测中整合了对比学习方法,这种策略显著提高了模型的整体性能。在三个真实数据集上的实验表明,DT4IER在预测准确性和特定任务的有效性方面,比最先进的序列推荐系统(SRSs)和多任务学习(MTL)模型更加有效。源代码可在线访问以便于复制。
- 图表
- 解决问题本论文旨在解决强化学习在推荐系统中的不稳定性和多重奖励设计的问题,提出了一种基于决策变换器的推荐模型DT4IER。
- 关键思路DT4IER通过创新的多重奖励设计,平衡了短期和长期奖励,并结合用户属性增强了上下文信息。模型还采用高维编码器和对比学习方法以提高预测能力。
- 其它亮点论文在三个真实数据集上进行了实验,证明了DT4IER在预测准确性和特定任务的有效性方面优于当前最先进的顺序推荐系统和多任务学习模型。论文提供了开源代码以便于复现。
- 近期的相关研究包括: 1. Sequential Recommender Systems 2. Multi-Task Learning Models
沙发等你来抢
去评论
评论
沙发等你来抢