End-to-end training of Multimodal Model and ranking Model

简介

传统的推荐系统主要依赖于ID特征，往往会遇到与冷启动和泛化相关的挑战。建模预先提取的内容特征可以缓解这些问题，但由于训练任务和模型参数之间的差异，这仍然是一个次优解。端到端训练为这些问题提供了一个有前途的解决方案，但大部分现有的工作主要集中在检索模型上，使得多模态技术被低估。本文提出了一个名为EM3的工业多模态推荐框架：多模态模型和排名模型的端到端训练，充分利用多模态信息，并允许个性化排名任务直接训练多模态模型的核心模块，以获得更多面向任务的内容特征，而不会过度消耗资源。首先，我们提出了Fusion-Q-Former，它由transformers和一组可训练的查询组成，用于融合不同的模态并生成固定长度和稳健的多模态嵌入。其次，在我们的用户内容兴趣的序列建模中，我们利用低秩适应技术来缓解资源消耗和长序列长度之间的冲突。第三，我们提出了一种新颖的内容-ID-对比学习任务，通过将它们彼此对齐来补充内容和ID的优势，获得更多面向任务的内容嵌入和更广泛的ID嵌入。在实验中，我们将EM3实现在不同的排名模型中，实现了离线评估和在线A/B测试的显着改进，验证了我们方法的普适性。我们还进行了消融研究和可视化。此外，我们还在两个公共数据集上进行了实验，证明了我们提出的方法优于现有的最先进方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决传统推荐系统中冷启动和泛化问题，提出了一种利用多模态信息进行端到端训练的工业级多模态推荐框架EM3。
关键思路

本文提出了一种基于可训练查询的Transformer模型Fusion-Q-Former来融合多模态信息，使用低秩适应技术来缓解资源消耗与序列长度之间的冲突，同时提出了Content-ID-Contrastive学习任务来提高任务导向的内容嵌入和泛化的ID嵌入。
其它亮点

本文在两个场景中实现了EM3，并在离线评估和在线A/B测试中获得了显著的改进，验证了其方法的普适性。此外，本文还在两个公共数据集上进行了实验，证明了其方法优于现有方法。
相关研究

相关研究包括传统推荐系统、多模态推荐系统、端到端训练和内容-ID对齐等方向的研究。

End-to-end training of Multimodal Model and ranking Model

提问交流

提问交流