Imagery as Inquiry: Exploring A Multimodal Dataset for Conversational Recommendation

2024年05月23日
  • 简介
    我们介绍了一个多模态数据集,用户通过图像表达偏好。这些图像包括从风景到艺术作品的广泛视觉表达。用户请求推荐类似于图像所捕捉到的感觉的书籍或音乐,推荐通过社区的点赞来认可。该数据集支持两个推荐任务:标题生成和多项选择。我们使用大型基础模型进行实验,发现它们在这些任务中存在局限性。特别是,视觉语言模型在使用描述的语言模型中没有显着优势,我们假设这是由于未充分利用视觉能力。为了更好地利用这些能力,我们提出了“图像链提示”,取得了显著的改进。我们发布了我们的代码和数据集。
  • 图表
  • 解决问题
    本文旨在介绍一个多模态数据集,用户通过图像表达偏好,并请求推荐类似情感的书籍或音乐。本文的问题是如何更好地利用图像信息,提高推荐任务的准确性。
  • 关键思路
    本文提出了一种新的启发式方法——图像链式提示,以更好地利用图像信息。实验结果表明,这种方法可以显著提高推荐任务的准确性。
  • 其它亮点
    本文的亮点包括:提出了一个多模态数据集;提出了一种新的启发式方法——图像链式提示;通过实验验证了该方法的有效性。此外,本文还开源了代码和数据集。
  • 相关研究
    在该领域中,最近的相关研究包括:1.《Learning to Recommend with Visual and Textual Content from Weblog Data》;2.《Visual-Semantic Graph Attention Network for Recommendation》;3.《Deep Learning for Music Recommendation: A Survey and Future Directions》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论