An Empirical Study of Training ID-Agnostic Multi-modal Sequential Recommenders

2024年03月26日
  • 简介
    顺序推荐(SR)旨在基于历史交互来预测未来的用户-物品交互。虽然许多SR方法集中于用户ID和物品ID,但人类通过多模态信号(如文本和图像)对世界的感知已经激发了研究人员探索如何构建不使用ID的多模态信息的SR。然而,多模态学习的复杂性体现在不同的特征提取器、融合方法和预训练模型中。因此,设计一个简单且通用的多模态顺序推荐(MMSR)框架仍然是一个巨大的挑战。我们系统地总结了现有的多模态相关SR方法,并将其精华归纳为四个核心组件:视觉编码器、文本编码器、多模态融合模块和顺序架构。在这些维度上,我们剖析了模型设计,并回答了以下子问题:首先,我们探讨如何从头开始构建MMSR,确保其性能与现有的SR方法相当或超过,而不需要复杂的技术。其次,我们研究MMSR是否可以从现有的多模态预训练范例中受益。第三,我们评估了MMSR在解决常见挑战(如冷启动和领域转移)方面的能力。我们在四个真实的推荐场景中的实验结果表明,不依赖于ID的多模态顺序推荐具有巨大的潜力。我们的框架可以在以下网址找到:https://github.com/MMSR23/MMSR。
  • 图表
  • 解决问题
    该论文旨在构建一个简单且通用的多模态顺序推荐框架,以解决基于用户ID和物品ID的推荐方法无法处理多模态信息的问题。
  • 关键思路
    该论文提出了一个四个核心组件的框架,包括视觉编码器、文本编码器、多模态融合模块和顺序架构,以构建一个ID-不可知的多模态顺序推荐系统。
  • 其它亮点
    该论文系统总结了现有的多模态相关的顺序推荐方法,并提出了一个简单但有效的框架,能够在多个真实世界推荐场景中取得良好的表现。论文还使用了多个数据集进行了实验,并在GitHub上开源了代码。
  • 相关研究
    最近的相关研究包括《Multi-Modal Sequential Recommendation with Multi-Head Attention Mechanisms》、《Multi-modal Sequential Recommendation with Multi-armed Bandit》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论