Learned Ranking Function: From Short-term Behavior Predictions to Long-term User Satisfaction

简介

我们提出了“学习排名函数”（LRF）系统，该系统将短期用户-物品行为预测作为输入，并输出一系列推荐，直接优化长期用户满意度。大多数以前的工作都是基于优化启发式函数的超参数。我们建议将问题直接建模为一个目标是最大化长期用户满意度的推荐优化问题。我们还开发了一种新颖的约束优化算法，稳定了多目标优化的目标权衡。我们通过实时实验评估了我们的方法，并描述了其在YouTube上的部署。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

LRF试图解决的问题是通过优化长期用户满意度的推荐算法，相比之前基于启发式函数的方法，这是一个新问题。
关键思路

LRF的关键思路是将推荐问题直接建模为一个优化长期用户满意度的推荐序列问题，并且提出了一种新的约束优化算法来稳定目标权衡。
其它亮点

论文使用了实验来评估他们的方法，并且描述了他们在YouTube上的部署。值得注意的是，他们的方法直接优化长期用户满意度，而不是基于启发式函数的方法，这是一个重要的创新点。
相关研究

在这个领域中，还有一些相关的研究被进行，例如《Deep Interest Network for Click-Through Rate Prediction》和《Neural Collaborative Filtering》。