- 简介我们介绍了一个多模态数据集,用户通过图像表达偏好。这些图像包括从风景到艺术作品的广泛视觉表达。用户请求推荐类似于图像所捕捉到的感觉的书籍或音乐,推荐通过社区的点赞来认可。该数据集支持两个推荐任务:标题生成和多项选择。我们使用大型基础模型进行实验,发现它们在这些任务中存在局限性。特别是,视觉语言模型在使用描述的语言模型中没有显着优势,我们假设这是由于未充分利用视觉能力。为了更好地利用这些能力,我们提出了“图像链提示”,取得了显著的改进。我们发布了我们的代码和数据集。
- 图表
- 解决问题本文旨在介绍一个多模态数据集,用户通过图像表达偏好,并请求推荐类似情感的书籍或音乐。本文的问题是如何更好地利用图像信息,提高推荐任务的准确性。
- 关键思路本文提出了一种新的启发式方法——图像链式提示,以更好地利用图像信息。实验结果表明,这种方法可以显著提高推荐任务的准确性。
- 其它亮点本文的亮点包括:提出了一个多模态数据集;提出了一种新的启发式方法——图像链式提示;通过实验验证了该方法的有效性。此外,本文还开源了代码和数据集。
- 在该领域中,最近的相关研究包括:1.《Learning to Recommend with Visual and Textual Content from Weblog Data》;2.《Visual-Semantic Graph Attention Network for Recommendation》;3.《Deep Learning for Music Recommendation: A Survey and Future Directions》。
沙发等你来抢
去评论
评论
沙发等你来抢