今天给大家分享一篇CIKM2022上淘宝的一篇最新文章,基于Graph的冷启动视频点击率预估的工作:GIFT: Graph-guIded Feature Transfer for Cold-Start Video Click-Through Rate Prediction

文章的应用场景是淘宝首页"猜你喜欢"的短视频推荐。为了保证内容的时效性,每天都会产生大量的新内容新视频,传统的CTR预估任务会面临非常严重的冷启动问题。为了解决这样的问题,作者提出了一种基于Graph的特征迁移方法,能够将warmed-up视频上的鲁棒ID表征行为统计特征等通过Graph迁移到相关的cold-start视频上,实现cold-start视频的CTR精准预估。这一工作在实际应用场景中提升巨大,GIFT部署在淘宝首猜的精排模型中,超过了SOTA模型,在CTR上相对提升6.82%,非常显著,值得follow。

1.Motivation

抖音、快手等短视频平台已经非常流行,人们可以在非常短的时间内在这些平台快速获取信息。而淘宝电商平台近年来也在这一领域深耕,平台的短视频主要是作者分享商品、记录生活方式的手段。最近几年淘宝短视频数量增长了5倍,已经达到了千万级别。每天更新的短视频也从每天的几万条增长到了几十万条,显著提升了内容的丰富性、时效性以及对商品的覆盖度。

淘宝短视频其中一个重要的分发渠道是首页的"猜你喜欢"feeds。对于新的视频,会面临着非常严重的冷启动问题。主要是归咎于目前主流的推荐系统不具备冷启动推荐的能力。例如:协同过滤需要ITEM的历史交互行为、深度学习想学习一个有效的id表征也至少需要在训练集中出现5-10次[2]。此外,新视频的占比在全量视频中相对较少,导致模型学习过程中很容易过度重视ID表征和统计特征,对新视频的预估不友好。

大部分解决Cold-Start的主流方法都是引入了新ITEM的辅助信息。但实际上工业界推荐系统中,Item的辅助信息都已经引入到模型了,模型实际上仍然无法预估好cold-start item的CTR。

本文的主要思路是构建Cold-Start短视频和Warmed-up短视频之间的关系Graph,从而实现基于Graph的特征迁移,即:将Warmed-up短视频的ID表征、统计特征(PV,CTR等)等,通过graph的metapath迁移到与之相关的cold-start短视频上,从而得到Cold-Start视频更鲁棒、更准确的表征,并融入到CTR精排模型中进行建模和预测。

本文的主要贡献包括:

  • 提出了一种新颖的异构图构建方法,通过side information和多模态语义表征来构建cold-start视频和warmed-up视频之间的关系。
  • 提出了GIFT网络,来将warmed-up视频上的特征迁移到cold-start视频上,并验证了其有效性。
  • 实现并部署该GIFT系统到淘宝首猜推荐,在CTR上相对提升82%。GIFT系统可以方便地迁移到其他的应用中,例如商品或广告CTR预估等。

内容中包含的图片若涉及版权问题,请及时与我们联系删除