覆盖四种场景、包含正负向反馈，腾讯、西湖大学等发布推荐系统公开数据集Tenrec

近些年来，通过各种内容平台浏览视频或者是阅读文章的用户越来越多，而现有的推荐算法有时难以很好地建模用户的偏好，因此需要更准确的推荐系统模型。但已知的推荐系统（RS）的基准数据集要么是小规模的，要么是用户反馈形式非常有限。在这些数据集上评估的推荐系统模型往往缺乏实用性，难以为大规模真实场景应用提供足够的价值。

在本文中，来自腾讯、西湖大学的研究者发布了 Tenrec 数据集，一套超大规模的推荐系统公开数据集和评测基准，它记录了来自四种不同推荐场景的各种用户反馈。

论文地址：https://arxiv.org/abs/2210.10629
代码地址：https://github.com/yuangh-x/2022-NIPS-Tenrec
数据集地址：https://static.qblv.qq.com/qblv/h5/algo-frontend/tenrec_dataset.html

具体来说，Tenrec 有以下五个特点：(1)规模大，包含约 500 万用户和 1.4 亿次互动；(2)不仅有正向的用户反馈，也有真实的负反馈；(3)它包含四种不同场景中重叠的用户和重叠 items；(4)它包含各种类型的用户正反馈，以点击、点赞、分享形式等；(5)它包含了除了用户 id 和 item id 之外的附加特征，如用户年龄、性别和 items 类别等。

研究者通过对每个任务运行几个经典的 Baseline 模型来验证 11 个不同的推荐任务上的 Tenrec 表现。Tenrec 有很大的潜力成为一个对多数流行推荐系统任务有用的基准数据集。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

覆盖四种场景、包含正负向反馈，腾讯、西湖大学等发布推荐系统公开数据集Tenrec

评论列表

评论