Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond

2024年03月15日
  • 简介
    开发一个能有效利用异构资源并响应各种个性化需求的通用模型一直是社区的愿望。我们的日常选择,特别是在时尚和零售领域,很大程度上受到多模态数据(如图片和文本描述)的影响。这些模态不仅提供直观的指导,而且迎合个性化用户偏好。然而,主要的个性化方法主要集中在基于ID或文本的推荐问题上,未能理解涵盖各种任务或模态的信息。在本文中,我们的目标是建立一个统一的多模态个性化系统范式(UniMP),该范式有效地利用多模态数据,同时消除与任务和模态特定定制相关的复杂性。我们认为,基础生成建模的进展提供了实现这一目标所需的灵活性和有效性。鉴于此,我们开发了一个通用且可扩展的个性化生成框架,可以处理广泛的个性化需求,包括物品推荐、产品搜索、偏好预测、解释生成和进一步的用户引导图像生成。我们的方法通过无缝地摄入交错的跨模态用户历史信息,增强了基础语言模型在个性化任务中的能力,为用户提供更精确和定制化的体验。为了训练和评估所提出的多模态个性化任务,我们还引入了一个新颖且全面的基准,涵盖了各种用户需求。我们在真实世界基准上的实验展示了模型的潜力,优于专门针对每个任务的竞争方法。
  • 图表
  • 解决问题
    论文旨在建立一个统一的多模态个性化系统(UniMP),有效利用多模态数据,同时消除与任务和模态特定定制相关的复杂性。作者认为现有的个性化方法主要集中在基于ID或文本的推荐问题上,无法理解涵盖各种任务或模态的信息。
  • 关键思路
    作者提出了一个通用的、可扩展的个性化生成框架,可以处理广泛的个性化需求,包括项目推荐、产品搜索、偏好预测、解释生成和用户引导的图像生成。他们的方法通过无缝地摄取交错的跨模态用户历史信息,增强了基础语言模型的个性化任务能力,为用户提供更精确、更定制的体验。
  • 其它亮点
    论文介绍了一个全面的基准测试,涵盖了各种用户需求,用于训练和评估多模态个性化任务。实验结果表明,该模型具有潜力,在现实世界的基准测试中表现优异,优于专门针对每个任务的竞争方法。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Multi-Modal Multi-Task Learning for Autonomous Driving》、《Multi-Modal Machine Learning: A Survey and Taxonomy》、《Multi-Modal Learning: Overview and Recent Trends》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论