Imagery as Inquiry: Exploring A Multimodal Dataset for Conversational Recommendation

简介

我们介绍了一个多模态数据集，用户通过图像表达偏好。这些图像包括从风景到艺术作品的广泛视觉表达。用户请求推荐类似于图像所捕捉到的感觉的书籍或音乐，推荐通过社区的点赞来认可。该数据集支持两个推荐任务：标题生成和多项选择。我们使用大型基础模型进行实验，发现它们在这些任务中存在局限性。特别是，视觉语言模型在使用描述的语言模型中没有显着优势，我们假设这是由于未充分利用视觉能力。为了更好地利用这些能力，我们提出了“图像链提示”，取得了显著的改进。我们发布了我们的代码和数据集。
图表
解决问题

本文旨在介绍一个多模态数据集，用户通过图像表达偏好，并请求推荐类似情感的书籍或音乐。本文的问题是如何更好地利用图像信息，提高推荐任务的准确性。
关键思路

本文提出了一种新的启发式方法——图像链式提示，以更好地利用图像信息。实验结果表明，这种方法可以显著提高推荐任务的准确性。
其它亮点

本文的亮点包括：提出了一个多模态数据集；提出了一种新的启发式方法——图像链式提示；通过实验验证了该方法的有效性。此外，本文还开源了代码和数据集。
相关研究

在该领域中，最近的相关研究包括：1.《Learning to Recommend with Visual and Textual Content from Weblog Data》；2.《Visual-Semantic Graph Attention Network for Recommendation》；3.《Deep Learning for Music Recommendation: A Survey and Future Directions》。

Imagery as Inquiry: Exploring A Multimodal Dataset for Conversational Recommendation

评论