Hi-Gen: Generative Retrieval For Large-Scale Personalized E-commerce Search

2024年04月24日
  • 简介
    利用生成式检索技术(GR)增强搜索系统是一种新兴的方法学,近年来已经显示出有希望的结果。在GR中,文本到文本模型直接将字符串查询映射到相关文档标识符(docIDs),因此它大大简化了整个检索过程。然而,在将大多数GR模型应用于大规模电子商务个性化商品搜索时,我们必须面对编码和解码中的两个关键问题。(1)现有的docID生成方法忽略了效率信息的编码,这在电子商务中非常关键。(2)在解码docIDs时,位置信息很重要,但之前的研究没有充分区分位置信息的重要性或很好地利用这些位置之间的内在相互关系。为了解决这些问题,我们引入了一种高效的分层编码-解码生成式检索方法(Hi-Gen)用于大规模个性化电子商务搜索系统。具体而言,我们首先设计了一个表示学习模型以及度量学习,以学习商品的有区别的特征表示,以捕捉语义相关性和效率信息。然后,我们提出了一个类别引导的分层聚类方案,充分利用商品的语义和效率信息来促进docID生成。最后,我们设计了一个位置感知的损失来区分位置的重要性,并挖掘不同令牌在同一位置之间的内在相互关系。这个损失提高了解码阶段使用的语言模型的性能。此外,我们提出了两种Hi-Gen的变体(即Hi-Gen-I2I和Hi-Gen-Cluster)来支持在线实时大规模召回在线服务过程。在公共和行业数据集上的广泛实验证明了Hi-Gen的有效性和效率。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决大规模个性化电子商务搜索系统中的编码和解码问题,其中现有的文档ID生成方法忽略了效率信息的编码,而位置信息在解码文档ID时很重要。
  • 关键思路
    本文提出了一种高效的分层编码-解码生成检索方法(Hi-Gen),通过设计表示学习模型和度量学习来学习物品的区分性特征表示,以捕捉语义相关性和效率信息。同时,提出了基于类别的分层聚类方案,以利用物品的语义和效率信息来促进文档ID生成。最后,设计了一种位置感知损失来区分位置的重要性,并挖掘不同令牌在同一位置的内在相互关系。
  • 其它亮点
    本文的亮点包括使用的高效的Hierarchical encoding-decoding Generative检索方法(Hi-Gen),设计了位置感知损失来提高语言模型的性能,提出了两个Hi-Gen变体以支持在线实时大规模召回。实验结果表明,Hi-Gen方法在公共和工业数据集上均具有有效性和效率。
  • 相关研究
    近期的相关研究包括基于生成检索的方法,如GPT-2和BERT,以及基于表示学习的方法,如DSSM和CDSSM。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问