MIND: Multimodal Shopping Intention Distillation from Large Vision-language Models for E-commerce Purchase Understanding

2024年06月15日
  • 简介
    提高用户体验并在电子商务平台上提供个性化搜索结果,严重依赖于理解购买意图。然而,现有的获取大规模意图的方法依赖于通过人工注释来提炼大型语言模型进行验证。这种方法往往会产生以产品为中心的意图,忽略了产品图像中有价值的视觉信息,并且在可扩展性方面产生高成本。为了解决这些问题,我们介绍了MIND,这是一个多模态框架,允许大型视觉-语言模型从多模态产品元数据中推断购买意图,并优先考虑以人为本的意图。使用亚马逊评论数据,我们应用MIND并创建了一个多模态意图知识库,其中包含从107,215个产品的126,142个共同购买记录中得出的1,264,441个意图。广泛的人类评估证明了我们获得的意图的高可信度和典型性,并验证了我们的提炼框架和过滤机制的有效性。额外的实验表明,我们获得的意图显著增强了两个意图理解任务中的大型语言模型。
  • 图表
  • 解决问题
    本文旨在解决电子商务平台上的购买意图理解问题,尤其是在考虑到商品图像等多模态信息时的购买意图理解问题。现有方法需要大量人工标注,成本高且容易忽略图像信息。
  • 关键思路
    本文提出了一种多模态框架MIND,可以利用商品元数据推断购买意图并优先考虑人性化的意图。通过使用亚马逊评论数据,创建了一个包含1,264,441个购买意图的多模态意图知识库。
  • 其它亮点
    本文的实验结果表明,MIND可以有效地提高大型语言模型在购买意图理解任务中的性能。此外,本文的方法还可以减少人工标注的成本,并且能够从商品图像等多模态信息中获取有价值的购买意图。
  • 相关研究
    在该领域中,最近的相关研究包括《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论