Modality-Independent Graph Neural Networks with Global Transformers for Multimodal Recommendation

2024年12月18日
  • 简介
    多模态推荐系统可以从现有的用户-项目交互以及与项目相关的多模态数据的语义中学习用户的偏好。许多现有方法通过构建多模态用户-项目图来建模这一过程,将多模态推荐视为图学习任务。图神经网络(GNNs)在这一领域已经展现出良好的性能。先前的研究利用了GNNs捕捉特定感受野(通常用跳数 $K$ 表示)内邻域信息的能力,以丰富用户和项目的语义。我们观察到,不同模态下的最优感受野可能会有所不同。在本文中,我们提出了具有模态独立感受野的GNNs,该方法为不同的模态使用具有独立感受野的单独GNNs,以提升性能。我们的结果表明,在某些数据集上,某些模态的最优 $K$ 值可能低至1或2,这可能会限制GNNs捕捉全局信息的能力。为了解决这一问题,我们引入了一种基于采样的全局Transformer,它利用均匀全局采样有效地整合全局信息。我们进行了全面的实验,证明了我们方法相较于现有方法的优势。我们的代码已公开发布在 https://github.com/CrawlScript/MIG-GT。
  • 图表
  • 解决问题
    该论文旨在解决多模态推荐系统中的一个关键问题:不同模态下的最佳感受野(receptive field)可能不同,而现有方法通常使用统一的感受野,这可能导致性能不佳。此外,论文还关注如何在某些模态下,当最佳感受野较小时,GNNs 仍然能够捕获全局信息。
  • 关键思路
    论文提出了一种新的方法,即使用具有独立感受野的多模态图神经网络(GNNs with Modality-Independent Receptive Fields, MIG-GT),为不同的模态设置不同的感受野。为了进一步增强模型的全局信息捕获能力,引入了一个基于采样的全局Transformer模块(Sampling-based Global Transformer)。这种方法不仅提高了模型的灵活性,还能更好地处理不同模态的数据。
  • 其它亮点
    1. 论文通过实验证明了不同模态的最佳感受野确实存在差异,并且某些模态的最佳感受野可能非常小。 2. 提出的MIG-GT模型在多个数据集上表现优于现有的多模态推荐系统方法。 3. 论文提供了一个公开的代码库,方便其他研究人员复现实验和进一步研究。 4. 实验设计全面,包括了对不同模态和不同感受野的对比分析,验证了方法的有效性。
  • 相关研究
    1. "Graph Neural News Recommendation with Long-term User Interest Modeling" 2. "Heterogeneous Graph Neural Networks for Malicious Account Detection" 3. "Multi-Modal Graph Neural Networks for Recommender Systems" 4. "Learning Heterogeneous Graph Embedding for Multi-View Recommendation"
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论